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EP 0 702 815 'i!^';:'- 
K51 004/7 

HTNTRRGRUND PER eRFINDUNG 

1. GEBIET PER ERFINDUNG 

Die Erfindung betrifft das Gebiet von Verfahren und Vorrichtungen zum 
Unterhalten eines konsistenten Dateisy^tems und ziim SchafFen von aus- 
schlieBlich lesbaren Kppien des Dateisystems. . 

2. EINSCHLAGTQER STAND PER TECHNIK 

Samtliche Dateisysteme mussen auch bei Systemausfall Konsistenz be- 
wahren. Im Stand der Technik wurde zu diesem Zweck eine Reihe unter- 
schiedlicher Konsistenzmethoden eingesetzt. 

Eine der schwierigsten und zeitraubendsten Anforderungen bei der Ver- 
waltung jedes Pateiservers ist die Anfertigung von Sicherungen der Patei- 
daten. Traditionelle Losungen bestanden darin, eine Kopie der Paten auf 
Band oder andere Offline-Patentrager zu bringen; Bei einigen Pateisyste- 
men muB beim SichenmgsprozeB der Patenserver offline gesetzt werden, 
um sicher zu gehen, daB der Sicherungsvorgang vollstandig konsistent ist. 
Ein jiingerer Fortschritt bei der Patensichemng ist die MSgliqhkeit, ein 
Pateisystem rasch zu .Oclonen" (d.i. ein zum Stand der lechiiik gehoriges 
Verfahren zum Erzeugen einer nur lesbaren Kopie des Pateisystems auf 
Platte), und eine Patensicheruiig anhand des Klons, ;und 'nicht aus dem 
aktiven Pateisystem zu erstelien. Bei diesem Typ von Patei kann der Pa- 
tenserver beim Sicherungsbetrieb online bleiben. 


Datenbank-Konsistenz 


Eine herkommliche Datenbank (Dateisystem) ist von Chutani, et al. offen- 
bart in seinem Artikel mit dem Titel The Episode File System, USENIX, 
Winter 1992, Seiten 43-59. Dieser Artikel beschreibt das Episode- 
Dateisystem, bei dem es sich urn eine Datenbank unter Verwendung von 
Meta-Daten (das heiBt Inoden-Tabellen, Verzeichnissen, Momentaufnah- 
men und indirekten Blocken) handelt. Es kann als eigenstandige oder als 
verteilte Datenbank verwendet werden. Episode imterhalt eine Mehrzahl 
separater Datenbank-^Hirarchien. Episode nimmt koUektiv auf mehrere 
Datenbanken als ,^ggregat" Bezug. Insbesondere schafft Episode einen 
Klon jeder Datenbank ziir langsamen Anderung von Daten. 

In Episode enthalt jede logische Datenbank eine ,^oden"-Tabelle. Eine 
Anoden-Tabelle ist aquivalent einer in Datenbanken wie dem Berkeley 
Fast File System verwendeten Inoden-Tabelle. Es handelt sich um eine 
252-Byte-Struktur. Anoden dienen zum Speichem samtlicher Benutzerda- 
ten sowie von Meta-Daten innerhalb des Episode-Dateisystems. Eine An- 
ode beschreibt das Hauptverzeichnis einer Datenbank einschlieBlich Hilfs- 
dateien und Verzeichnissen. Jedes derartige Dateisystem wird in Episode 
als eine „Dateimenge" (Fileset) referenziert, Samtliche Daten innerhalb 
einer Dateimenge konnen geortet werden, indem iterativ dnrch die An- 
oden-Tabelle gegangen imd jede Datei ihrerseits verarbeitet wird. Episode 
erzeugt eine ausschlieBlich lesbare Kopie einer Datenbank, die hier als 
,JClon" bezeichnet wird, und sie nutzt gemeinsam Daten mit dem aktiven 
Dateisystem imter Einsatz von Copy-On- Write-Methoden (COW- 
Methoden; Kopieren nach Schreiben). 

Episode verwendet eine Protokollmethpde ziir Wiedererlangung einer oder 
mehrerer Datenbanken nach einem Systemzusammenbruch. Das Protokol- 
lieren garantiert, daC die Datei-Meta-Daten konsistent sind: Eine Moment- 
aufhahmen-Tabelle enthalt Infomiation daruber, ob jeder Block innerhalb 
der Datenbank zugeordnet ist oder nicht. AuBerdem zeigt die Momentauf- 
hahmen-Tabelle an, ob jeder Block protokolliert ist oder nicht. Samtliche 
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Meta-Daten-Aktualisierungen werden in einem Protokoll-„Behalter" auf- 
gezeichnet, der das Transaktions-Protokoll des Aggregats speichert. Das 
ProtokoU wird als Kreispuffer von Platten-Blocken verarbeitet. Die Tran- 
saktions-ProtokoUierung von Episode verwendet Protokolliermethoden, 
5 die ursprilnglich fur Datenbanken mit dem Zweck entwickelt wurden, Da- 
teisystem-Konsistenz zu garantieren. Diese Methode macht sorgfaltigen 
Gebrauch von Schreibbefehlen sowie einem Wiederherstellungsprogramm, 
die von Datenbankmethoden innerhalb des Wiederherstellungsprogramms 
untersttitzt werden. 

10 

Andere zum Stand der Technik zahlende Systeme enthalten JFS von IBM 
und VxFS von Veritas Corporation und machen Gebrauch von unter- 
schiedlichen Formen der Transaktions-ProtokoUierung, um den Wieder- 
herstellxmgsprozeB zu beschleunigen, allerdings erfordem sie immer noch 
1 5 einen WiederherstellungsprozeB. 

Ein weiteres bekanntes Verfahren wird als Methode des „geordneten 
Schreibens" bezeichnet. Es schreibt samtliche Platten-Blocke in sorgfaltig 
festgelegter Reihenfolge, so daC Schaden minimiert wird, wenn es zu ei- 

20 nem Systemausfall kommt, wahrend eine Reihe von zueinander in Bezie- 
hxing stehender Schreibvorgange durchgefuhrt wird. Dieser Stand der 
Technik versucht sicherzustellen, daB moglicherweise auftretende Inkonsi- 
stenzen harmlos sind. Beispielsweise werden einige wenige ungenutzte 
Blocke Oder Inoden als zugeordnet markiert. Der Hauptnachteil dieser Me- 

25 thode besteht darin, daB die dadurch der Plattenordnung auferlegten Re- 
striktionen eine hohe Leistungsfahigkeit kaum zulassen. 

Ein weiteres bekanntes System ist eine Weiterentwicklung des zweiten 
bekannten Verfahrens, bezeichnet als Methode des „geordneten Schreibens 
30 mit Wiederherstellung". Bei diesem Verfahren konnen Inkonsistenzen 
moglicherweise schadlich sein. Allerdings ist die Reihenfolge von 
Schreibvorgangen derart beschrankt, daB sich Inkonsistenzen auffinden 
und mit Hilfe eines Wiederherstellungsprogranmis fixieren lassen. Beispie- 
le fur dieses Verfahren umfassen das urspningliche UNDC-Dateisystem 


sowie das Berkeley Fast File System (FFS). Diese Methode verringert die 
Platten-Reihenfolge ausreichend, um die LeistungseinbuBe der Platten- 
Auftragserteilung zu beseitigen. Ein weiterer Nachteil besteht darin, daB 
der WiederherstellungsprozeB zeitraubend ist, Typischerweise ist er pro- 
portional zur GroBe des Dateisystems. Die Wiederherstellung eines 5 GB 
umfassenden FFS-Dateisystems erfordert daher beispielsweise zur Durch- 
fiihxxing eine Stunde oder mehr. 

Dateisvstem-Klone 

Figur 1 ist ein den Stand der Technik zeigendes Diagramm fur das Episo- 
de-Dateisystem and veranschaulicht den Einsatz von Kopieren-Nach- 
Schreiben-Methoden (COW-Methoden), um einen Dateimengen-Klon zu 
erzeugen. Eine Anode 110 enthalt einen ersten Zeiger (Pointer) 11 OA mit 
einem gesetzten COW-Bit. Der Zeiger 11 OA referenziert den Datenblock 
114 direkt. Die Anode 110 enthalt einen zweiten Zeiger HOB, dessen 
COW-Bit geloscht ist Der Zeiger 1 lOB der Anode referenziert den Block 
112 indirekt. Der indirekte Block 112 enthalt einen Zeiger 112A, der den 
Datenblock 124 direkt referenziert. Das COW-Bit des Zeigers 112A ist 
gesetzt, Der indirekte Block 112 enthalt einen zweiten Zeiger 112B, der 
den Datenblock 126 referenziert. Das COW-Bit des Zeigers 112B ist ge- 
loscht. 

Eine Klon- Anode 120 enthalt einen ersten Zeiger 120A, der auf den Da- 
tenblock 1 14 zeigt. Das COW-Bit des Zeigers 120A ist geloscht. Der zwei- 
te Zeiger 120B der Klon-Anode 120 referenziert den indirekten Block 122. 
Das COW-Bit des Zeigers 120B ist geloscht. Der indirekte Block 122 ent- 
hah einen Zeiger 122 A, der den Datenblock 124 referenziert. Das COW- 
Bit des Zeigers 122A ist geloscht. 

Wie in Figur 1 gezeigt ist, enthaU jeder direkte Zeiger 11 OA, 112A-112B, 
120A und 122 A und jeder indirekte Zeiger HOB und 120B in dem Episo- 
de-Dateisystem ein COW-Bit. Blocke, die nicht modifiziert wurden, sind 
sowohl im aktiven Dateisystem als auch in dem Klon enthalten, und bei 


ihnen sind die COW-Bits gesetzt (1). Das COW-Bit ist geloscht (0), wenn 
ein von dem Zeiger referenzierter Block modifiziert wurde und damit Teil 
des aktiven Dateisystems ist, nicht jedoch Teil des Klpns. 

Wird ein Kopieren-Nach-Schreiben-Block modifiziert, so wird gemaB Fi- 
gur 1 ein neuer Block zugeordnet und aktualisiert. Das COW-Flag in dem 
Zeiger auf diesen neuen Block wird dann gesetzt. Das COW-Bit des Zei- 
gers 11 OA der urspriinglichen Anode 110 wird geloscht. Wenn also die 
Klon- Anode 120 erzeugt wird, referenziert die Klon- Anode 120 auch den 
Datenblock 1 14. Sowohl die Original-Anode 110 als auch die Klon- Anode 
120 referenzieren den Datenblock 114. Auch der Datenblock 124 wurde 
modifiziert, angedeutet durch ein geloschtes COW-Bit des Zeigers 1 12A in 
dem urspninglichen indirekten Block 1 12. Wenn folglich die Klon-Anode 
erzeugt wird, wird der indirekte Block 122 erzeugt. Der Zeiger 122 A des 
indirekten Blocks 122 referenziert den Datenblock 124, und das COW-Bit 
des Zeigers 122 A ist gel5scht. Sowohl der indirekte Block 122 der Origi- 
nal-Anode 110 als auch der indirekte Block 122 der Klon-Anode 120 refe- 
renzieren den Datenblock 124. 

Figur 1 zeigt das Kopieren einer Anode zum Erzeugen einer Klon-Anode 
120 fur eine einzelne Datei. Allerdings mussen Klon-Anoden fur jede Da- 
tei erzeugt werden, die geanderte Datenblocke in dem Dateisystem enthalt. 
Zur Zeit des Klonens mussen samtliche Inoden kopiert werden. Das Er- 
zeugen von Klon-Anoden fur jede modifizierte Datei innerhalb des Datei- 
systems kann signifikante Mengen an Plattenspeicherplatz verbrauchen. 
AuBerdem ist Episode nicht in der Lage, Mehrfach-Klone zu handhaben, 
da jeder Zeiger ledigUch ein einziges COW-Bit aufweist. Ein einzelnes 
COW-Bit ist nicht in der Lage, mehr als einen Klon zu unterscheiden. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 
den konnte. 

Ein Dateisatz ,jaon" ist eine ausschlieSlich lesbare Kopie eines aktiven 
Dateisatzes, wohingegen der aktive Dateisatz selbst sowohl lesbar als auch 
beschreibbar ist. Klone werden unter Verwendung von COW-Methoden 
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implementiert und nutzen gemeinsam Datenblocke mit einem aktiven Da- 
teisatz auf Block-Fur-Block-Basis. Episode implementiert das Klonen da- 
durch, daC jede in einem Dateisatz gespeicherte Anode kopiert wird. Nach 
dem anfanglichen Klonen zeigen sowohl die beschreibbare Anode des ak- 
5 tiven Dateisatzes als auch die geklonte Anode auf denselben Datenblock 
Oder dieselben Datenblocke. Allerdings sind Plattenadressen fur direkte 
und indirekte Blocke innerhalb der Original-Anode als COW gekenn- 
zeichnet. Deshalb hat eine Aktualisierung des beschreibbaren Dateisatzes 
keinen EinfluB auf den Klon. Wird ein COW-Block modifiziert, so wird 

10 ein neuer Block in dem Dateisystem zugewiesen und mit der Modifizie- 
rung aktualisiert. Das COW-Flag in dem Zeiger dieses neuen Blocks wird 
geloscht. Das bekannte Episode-System erzeugt Klone, die die gesamte 
Inoden-Datei sowie samtliche indirekten Blocke innerhalb des Dateisy- 
stems duplizieren. Episode dupliziert samtliche Inoden und indirekten 

15 Blocke derart, daB es ein Kopieren-Nach-Schreiben-(COW-)Bit in samtli- 
chen Zeigem auf Blocke setzen kann, die sowohl von dem aktiven Datei- 
system als auch von dem Klon benutzt werden, Bei Episode ist es wichtig, 
diese Blocke zu kennzeichnen, so daB neue, in das aktive Dateisystem ein- 
geschriebene Daten die alten Daten, welche Teil des Klons sind, und die 

20 deshalb nicht geandert werden diirfen, nicht iiberschreiben. 

Das Erzeugen eines Klons im Stand der Technik kann bis zu 32 MB auf 
eine 1-GB-Platte verbrauchen. Der Stand der Technik verwendet 256 MB 
Plattenspeicherraiun auf einer 1-GB-Platte (fur 4-KB-Blocke), lun acht 

25 Klone des Dateisystems zu halten, Damit kann der Stand der Technik kei- 
ne groBen Anzahlen von Klonen zum Verhindem von Datenverlusten ver- 
wenden. Statt dessen erleichterte er ublicherweise das Sichem des Dateisy- 
stems auf eine Hilfsspeichereinrichtung, verschieden von dem Plattenlauf- 
werk, so zum Beispiel ein Band-Sicherungsgerat. Klone werden zum Si- 

30 chem eines Dateisystems in einem konsistenten Zustand in dem Zeitpunkt 
verwendet, zu dem der Klon hergestellt wird. Durch Klonen des Dateisy- 
stems kann der Klon zur Sicherheit auf das Hilfsspeichersystem gebracht 
werden, ohne daB dabei das aktive Dateisystem abgeschaltet wird, wo- 
durch Benutzer an einer Benutzung des Dateisystems gehindert wurden. 


Damit ermoglichen es Klone den Benutzem, weiterhin auf ein aktives Da- 
teisystem zuzugreifen, wahrend das Dateisystem selbst in einem konsisten- 
ten Zustand gesicheit wird, AnschlieBend wird der Klon geloscht, nachdem 
die Sicherung abgeschlossen ist. Episode ist nicht in der Lage, mehrere 
5 Klone zu fuhren, da jeder Zeiger nur ein COW-Bit enthalt. Ein einzelnes 
COW-Bit ist nicht im Stande, mehr als einen Klon zu vinterscheiden. Bei 
mehr als einem Klon gibt es kein zweites COW-Bit, welches gesetzt wer- 
den konnte. 

10 Ein Nachteil des bekannten Systems zum Erzeugen von Dateisystem- 
Klonen besteht darin, daB das System samtliche Inoden xmd samtliche indi- 
rekten Blocke innerhalb des Dateisystems dupliziert. Bei einem System 
mit zahlreichen kleinen Dateien konnen die Inoden allein einen signifikan- 
ten Prozentsatz des gesamten Plattenspeicherraums eines Dateisystems 

15 belegen. In einem 1-GB-Dateisystem zimi Beispiel, welches mit 4-KB- 
Dateien gefiillt ist, gibt es 32 MB Inoden. Das Erzeugen eines Episode- 
Klons verbraucht also einen signifikanten Anteil des Plattenspeicherraums 
und erzeugt groBe Mengen (das heiBt zahbreiche Megabytes) an Platten- 
verkehr. Als Ergebnis dieser Zustande nimmt das Erzeugen eines Klons 

20 eines Dateisystems einen betrachtlichen Zeitraimi bis zur VervoUstandi- 
gimg in Anspruch. 

Ein weiterer Nachteil des bekannten Systems besteht darin, daB das System 
die Erzeugung mehrerer Klone desselben Dateisystems schwierig macht. 
25 Im Ergebnis neigen die Klone dazu, einzeln fur Kurzzeitoperationen ver- 
wendet zu werden, so zum Beispiel zum Sichem des Dateisystems auf 
Band, um dann geloscht zu werden. 

Die in den geanderten Anspnichen defmierte Erfmdxmg schafft ein Verfah- 
30 ren zum Halten eines Dateisystems in einem konsistenten Zustand sowie 
zum Erzeugen von ausschlieBlich lesbaren Kopien eines Dateisystems. 
Anderungen des Dateisystems werden streng gesteuert, xmi das Dateisy- 
stem in einem konsistenten Zustand zu halten. Das Dateisystem schreitet 
von einem selbst-konsistenten Zustand zu einem weiteren selbst- 
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konsistenten Zustand waiter. Die Menge an selbst-konsistenten Blocken 
auf einer Platte, die durch die Haupt-Inode beherrscht wird, wird als Kon- 
sistenzpunkt (CP) bezeichnet. Zum Implementieren yon Konsistenzpunk- 
ten schreibt WAFL stets neue Daten in nicht-zugewiesene Blocke auf der 
Platte. Es uberschreibt niemals existierende Daten. Ein neuer Konsistenz- 
punkt tritt auf, wenn der Finsfo-BIock dadurch aktualisiert wird, dafi eine 
neue Haupt-Inode fur die Inodendatei in ihn eingeschrieben wird, Solange 
die Haupt-Inode nicht aktualisiert wird, andert sich also der Zustand des 
Dateisystems auf der Platte nicht. 

Die vorliegende Erfindung schafft auBerdem Schnappschusse, bei denen es 
sich urn virtuelle, ausschlieUlich lesbare Kopien des Dateisystems handelt. 
Ein Schnappschufi nimmt keinen Plattenspeicherplatz in Anspruch, wenn 
er am Anfang erzeugt wird. Er ist derart ausgestaltet, daB zahkeiche ver- 
schiedene Schnappschusse fiir ein und dasselbe Dateisystem erzeugt wer- 
den konnen. Im Gegensatz zu herkommlichen Dateisystemen, die einen 
Klon durch Duplizieren des gesamten Inoden-Dateisatzes und samtlicher 
indirekter Blocke duplizieren, dupliziert die vorliegende Erfmdung nur 
diejenige Inode, die die Inodendatei beschreibt. Der also tatsachlich beno- 
tigte Plattenspeicherplatz fur eine Momentaufiiahme betragt lediglich 128 
Bytes, die zum Speichem der duplizierten Inode verwendet werden. Die 
128 Bytes, die erfindungsgemaB fiir eine Momentaufiiahme oder einen 
SchnappschuB benotigt werden, sind deutlich weniger als die zahlreichen 
Megabytes, die fur einen Klon im Stand der Technik benotigt werden. 

Die vorliegende Erfindung verhindert, daB neue Daten, die in das aktive 
Dateisystem geschrieben werden, „alte" Daten, die Teil eines oder mehre- 
rer Schnappschusse sind, uberschreiben. Notwendig ist, daB alte Daten 
solange nicht uberschrieben werden, wie sie Teil eines Schnappschusses 
sind. Erreicht wird dies durch Verwendung einer fi-eien Mehrfachbit- 
Blockabbildung. Die meisten zum Stand der Technik gehorigen Dateisy- 
steme verwenden eine freie Blockabbildung mit einem einzelnen Bit pro 
Block, um anzugeben, ob ein Block zugewiesen ist oder nicht. Die vorlie- 
gende Erfindung verwendet eine Blockabbildung mit 32-Bit-Eintragen. Ein 
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erstes Bit gibt an, ob ein Block von dem aktiven Dateisystem verwendet 
wird, und 20 verbleibende Bits werden fiir bis zu 20 Schnappschusse ver- 
wendet, allerdings konnen einige Bits der 3 1 Bits fur andere Zv^ecke ver- 
wendet werden. 

5 

KI JRZE BESCHREIBUNG DER ZEICHNUNGEN 

Figur 1 ist ein Blockdiagranun eines zum Stand der Technik zahlenden 
,,Klons" eines Dateisystems. 

10 

Fignr 2 ist ein Diagramm, welches eine Liste von Inoden mit unsauberen 
Puffem veranschaulicht. 

Figur 3 ist ein Diagramni, das eine platteninteme Inode des WAFL dar- 
15 stellt. 

Figuren 4A-4D sind Diagranune, die platteninteme Inoden von WAFL mit 
xinterschiedlichen Umwege-Ebenen veranschaulichen. 

20 Figur 5 ist ein FluBdiagramm des Verfahrens zum Erzeugen eines Konsi- 
stenzpunkts. 

Figur 6 ist ein FluBdiagramm zur Veranschaulichung des Schritts 530 aus 
Figiu: 5 zum Erzeugen eines Konsistenzpxmkts, 

25 

Figur 7 ist ein FluBdiagramm zum Veranschaulichen des Schritts 530 in 
Figur 5 zum Erzeugen eines Schnappschusses. 

Figur 8 ist ein Diagramm zum Veranschaulichen einer Intem-Inode des 
30 WAFL gemaB der Erfmdung. 

Figur 9A-9D sind Diagranune, die Intem-Inoden des WAFL mit xmter- 
schiedlichen Umwege-Ebenen gemaB der Erfmdung darstellen. 
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Figur 10 ist ein Diagramm zum Veranschaulichen einer Intem-Inode 1020 
fur eine Datei, 

Figuren IIA-IID sind Diagramme zum Veranschaulichen einer Blockab- 
bilddatei (blkmap) gemaB der Erfindung. 

Figur 12 ist ein Diagramm zum Veranschaulichen einer erfmdungsgema- 
6en Inoden-Datei. 

Figuren 13A-13B sind Diagramme zum Veranschaulichen einer Inodenab- 
bild-Datei (inomap) gemaB der Erfindimg. 

Figur 14 ist ein Diagramm zum Veranschaulichen eines erfindungsgema- 
Ben Verzeichnisses. 

Figur 15 ist ein Diagramm zum Veranschaulichen einer Dateisysteminfor- 
mationsstruktur (fsinfo). 

Figur 16 ist ein Diagramm zum Veranschaulichen des WAFL- 
Dateisystems. 

Figuren 17A-17L sind Diagranmie zum Veranschaulichen des Erzeugens 
eines Konsistenzpimkts. 

Figuren 18A-18C sind Diagramme zum Veranschaulichen des Erzeugens 
eines Schnappschusses. 

Figur 19 ist ein Diagramm zum Veranschaulichen von Anderungen einer 
Inodendatei. 

Figur 20 ist ein Diagramm zum Veranschaulichen von fsinfo-Blocken, die 
zum Halten eines Dateisystems in einem konsistenten Zustand verwendet 
werden. 
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Figuren 21A-21F sind detaillierte Diagramme zum Veranschaulichen des 
Erzeugens eines Schnappschusses. 

Figur 22 ist ein Diagramm zum Veranschaulichen eines aktiven WAFL- 
Dateisystems mit drei Schnappschussen, die jeweils eine gemeinsame Da- 
tei referenzieren; und 

Figuren 23A-23B sind Diagramme zum Veranschaulichen der AJctualisie- 
nmg einer Zugriffszeit. 

DETAILLIERTE BESCHRHTBUNG DER ERFINDUNG 

Beschrieben wird ein System zum Erzeugen von ausschlieBlich lesbaren 
Kopien eines Dateisystems (einer Datenbank). In der folgenden Beschrei- 
bung werden zahheiche spezifische Einzelheiten, so zum Beispiel Anzahl 
und Beschaffenheit von Flatten, Plattenblock-GroBen etc. im einzehien 
beschrieben, um eine ausfuhrlichere Beschreibung der Erfmdung anzubie- 
ten. Es ist jedoch fur den Fachmann ersichtlich, daB die Erfmdung auch 
ohne diese spezifischen Einzelheiten ausgefuhrt werden kann. Andererseits 
wurden bekannte Merkmale nicht im einzehien beschrieben, um die Erfm- 
dung nicht in unnotiger Weise zu vermdeutlichen. 

WRTTE-ANVWHERE-DATEISYSTEM- LAYOUT 

Die vorliegende Erfmdung macht Gebrauch von einem Write-Anywhere- 
Dateisystem-Layout (WAFL von Write Anywhere File-system Layout), 
also von einer Dateisystem-Konfiguration, die ein Aufzeichnen oder 
Schreiben an beliebiger Stelle ermoglicht Das Plattenformatsystem beruht 
auf Blocken (das heiBt 4 KB Blocken, die keine Fragmente besitzen), ver- 
wendet Inoden zum Beschreiben seiner Dateien, und enthalt Verzeichnisse, 
die einfach speziell formatierte Dateien sind. WAFL verwendet Dateien 
zum Speichem von Meta-Daten, welche das Layout des Dateisystems be- 
schreiben. Die WAFL-Meta-Dateien beinhalten: eine Inodendatei, eine 
Blockabbild-Datei (blkmap) und eine Inodenabbilddatei (inoraap). Die 
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Inodendatei enthalt die Inodentabelle fur das Dateisystem. Die blkmap- 
Datei gibt an, welche Platten-Blocke zugeordnet sind. Die inomap-Datei 
gibt an, welche Inoden zugeordnet sind. Weiter unten werden Unterschei- 
dungsmerkmale fur platteninteme und WAFL-inteme Inoden diskutiert. 

Platteninteme WAFL-Inoden 

WAFL-Inoden unterscheiden sich von herkommlichen Inoden. Jede 
WAFL-Inode verweist auf 16 Blocke mit gleicher Umwegeebene. Eine 
Biocknummer ist 4 Bytes lang. Die Verwendung von Blocknummem mit 
gleicher Umwegeebene in einer Diode erleichtert die rekursive Verarbei- 
tung einer Datei. Figur 3 ist ein Blockdiagramm, das eine platteninteme 
Inode 310 veranschaulicht. Die platteninteme Inode 310 besteht aus Stan- 
dard-Inodeninformation 31 OA sowie 16 Blocknummem-Eintragen 31 OB 
gleicher Umwegeebene. Die Inodeninformation 31 OA umfaBt Information 
iiber den Inhaber einer Datei, Berechtigungen, DateigroBe, Zugriffszeit, 
etc., wie dies dem Fachmann alles bekannt ist. Im Gegensatz zu bekannten 
Inoden, die eine Mehrzahl von Blocknummem unterschiedlicher Umwe- 
geebenen aufweisen, ist die platteninteme Inode 310 anders. Durch Halten 
samtlicher Blocknummemeintrage 31 OB innerhalb einer Inode 310 auf 
gleicher Umwegeebene wird die Implementierung des Dateisystems ver- 
einfacht. 

Fiir eine kleine Datei mit einer Grofie von 64 Bytes oder weniger werden 
Daten direkt in der Inode selbst anstatt in Form von 16 Blocknummem 
gespeichert. Figur 4 A ist ein Diagramm, das eine Inode 410 der Ebene 0 
veranschaulicht, die der in Figur 3 gezeigten Inode 310 ahnelt. Allerdings 
enthalt die Inode 410 64 Bytes Daten 41 OB anstelle von 16 Blocknummem 
31 OB, Deshalb brauchen Plattenblocke bei sehr kleinen Dateien nicht zu- 
gewiesen zu werden. 

Fur eine Datei mit einer GroBe von weniger als 64 KB nimmt jede der 16 
Blocknummem direkt auf einen 4-KB-Datenblock Bezug. Figur 4B ist ein 
Diagramm, welches eine Inode 310 der Ebene 1 mit 16 Blocknummem 


31 OB veranschaulicht. Die Blocknummemeintrage 0-15 verweisen auf 
entsprechende 4-KB-Datenbl6cke 420A-420C. 

Fiir eine Datei mit einer GroBe, die gleich oder groBer ist als 64 KB und 
kleiner als 64 MB ist, nimmt jede der 16 Blocknummem Bezug auf einen 
einfach-indirekten Block. Seinerseits enthalt jeder einzeln indirekte 4-KB- 
Block 1024 Blocknximmem, die 4 KB-Datenbl6cke referenzieren. Figur 
4C ist ein Diagramm, welches eine Inode der Ebene 4, 310, veranschau- 
licht, welche 16 Blocknummem 31 OB enthalt, die 16 einfach-indirekte 
Blocke 430A-430C referenzieren. Wie in Figur 4C gezeigt ist, zeigt der 
Blocknummemeintrag 0 auf einen einfach-indirekten Block 430A. Der 
einfach-indirekte Block 430A enthalt 1024 Blocknummem, die auf 4-KB- 
Datenblocke 440A-440C Bezug nehmen. In ahnlicher Weise kaim jeder 
einfach-indirekte Block 430B-430C jeweils bis zu 1024 Datenblocke 
adressieren. 

Bel einer DateigroBe von mehr als 64 MB referenzieren die 16 Block- 
nvramiem der Inode doppelt-indirekte Bl5cke. Jeder doppelt-indirekte 4- 
KB-Block enthalt 1024 Blocknummem, die auf entsprechende einfach- 
indirekte Blocke verweisen. Jeder einfach-indirekte Block wiederum ent- 
halt 1024 Blocknummem, die auf 4-KB-Datenbl6cke zeigen. Auf diese 
Weise lassen sich bis zu 64 GB adressieren. Figur 4D ist ein Diagramm 
einer Inode 310 der Ebene 3, die 16 Blocknummem 310B enthalt, wobei 
Blocknummemeintrage 0, 1 und 15 auf doppelt-indirekte Blocke 470A, 
470B und 470C verweisen. Der doppelt-indirekte Block 470A enthalt 1024 
Blocknummemeintrage 0-1023, die auf 1024 einfach-indirekte Blocke 
480A-480B zeigen. Jeder einfach-indirekte Block 480A-480B wiederum 
referenziert 1024 DatenblScke. Wie in Figur 4D gezeigt ist, referenziert 
der einfach-indirekte Block 480 A 1024 Datenblocke 490A-490C, und der 
einfach-indirekte Block 480B ninunt Bezug auf 1024 Datenblocke 490C- 
490F. 
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WAFL-inteme Inoden 

Figur 8 ist ein Blockdiagramm, das eine WAFL-inteme Inode 820 veran- 
schaulicht. Die interne Inode 820 enthalt die Information der platteninter- 
nen Inode 310 (dargestellt in Figur 3), eine WAFL-Puffer-Datenstruktur 
820A, auBerdem 16 Pufferzeiger 820B. Eine WAFL-inteme Inode besitzt 
eine GroBe von 300 Bytes. Ein WAFL-Fuffer ist ein 4 KB iimfassendes 
(speicher-)intemes Aquivalent der 4-KB-Bl6cke, die auf der Platte gespei- 
chert sind. Die Intem-Inode 820 unterscheidet sich von herkommlichen 
Inoden, welche Puffer mit unterschiedlichen Umwegeebenen referenzie- 
ren. Jede Intern- WAFL-Inode 820 zeigt auf 16 Puffer mit gleicher Umwe- 
geebene. Ein Pufferzeiger hat eine Lange von 4 Bytes. Indem man samtli- 
che Pufferzeiger 820B in eine Inode 820 auf der gleichen Umwegeebene 
halt, vereinfacht man die Dateisystem-Implementiemng. Die Intem-Inode 
820 enthalt auBerdem Intem-Information 820C, umfassend ein „Unsau- 
ber"-Flag, ein Inkonsistenzpunkt-Flag (IN_CP) sowie Zeiger fur eine Ver- 
kniipfungsliste. Das Unsauber-Flag gibt an, daB die Inode selbst modifi- 
ziert wurde oder dafl sie Puffer referenziert, welche ihrerseits geandert 
wurden. Das IN_CP-Flag dient zum Markieren einer Inode als in einem 
Konsistenzpimkt befindlich (wird unten beschrieben). Die Zeiger fur eine 
verknupfte Liste werden unten beschrieben, 

Figur 10 ist ein Diagramm, welches eine Datei veranschaulicht, die durch 
eine WAFL-Inode 1010 referenziert wird. Die Datei enthalt indirekte 
WAFL-Puffer 1020-1024 und direkte WAFL-Puffer 1030-1034: die 
WAFL-Intem-Inode 1010 enthalt Standard-Inoden-Information lOlOA 
(einschlieBlich eines Zahlers fur unsaubere Puffer), eine WAFL- 
Pufferdatenstruktur lOlOB, 16 Pufferzeiger lOlOC und eine standardmaBi- 
ge platteninterae Inode lOlOD. Die interne WAFL-Inode 1010 hat eine 
GroBe von etwa 300 Bytes. Die platteninteme Inode hat eine GroBe von 
128 Bytes. Die WAFL-Pufferdatenstmktur 101 OB umfaBt zwei Zeiger, von 
denen der erste die 16 Pufferzeiger 10 IOC und der zweite platteninteme 
Blocknummem lOlOD referenziert. 
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Jede Inode 1010 besitzt eine Zahlung von unsauberen Puffem, auf die sie 
Bezug nimmt. Eine Inode 1010 kann in die Liste unsauberer Inoden 
und/oder die Liste von Inoden eingegeben werden, welche iinsaubere Puf- 
fer aufweisen. Wenn samtliche von einer Inode referenzierten unsauberen 
Puffer fur die Aufzeichnung auf Platte vorgesehen sind oder auf Platte auf- 
gezeichnet werden, wird die Zahlung der xinsauberen Puffer fur Inode 1010 
auf Null gesetzt. Die Inode 1010 wird dann entsprechend ihrem Flag neu in 
Warteschlange gestellt (das heifit in diesem Fall gibt es keine unsauberen 
Puffer), Diese Inode 1010 wird geloscht, bevor die nachste Inode verarbei- 
tet wird. AuBerdem wird das Flag der Inode geloscht, welches angibt, daB 
die Inode sich in einem Konsistenzpunkt befindet. Die Inode 1010 selbst 
wird in einem Konsistenzpunkt auf Platte geschrieben. 

Die WAFL-Pufferstruktur ist dargestellt durch einen indirekten WAFL- 
Puffer 1020. Der WAFL-Puffer 1020 enthalt eine WAFL- 
Pufferdatenstruktur 1020 A, einen 4-KB-Puffer 1020B mit 1024 WAFL- 
Pufferzeigem und einen 4-KB-Puffer 1020C mit 1024 plattenintemen 
Blocknummem. Die WAFL-Pufferdatenstruktur hat eine GroBe von 56 
Bytes und enthalt zwei Zeiger. Bin Zeiger der WAFL-Pufferdatenstruktur 
1020 A referenziert den 4-KB-Puffer 1020B, und ein zweiter Zeiger refe- 
renziert den Puffer 1020C. In Figur 10 zeigen die 16 Pufferzeiger lOlOC 
der WAFL-Inode 1010 auf die 16 einfach-indirekten WAFL-Puffer 1020- 
1024. Der WAFL-Puffer 1020 wiederum referenziert 1024 direkte WAFL- 
Pufferstrukturen 1030-1034. Der WAFL-Puffer 1030 steht reprasentativ 
fiir direkte WAFL-Puffer. 

Der direkte WAFL-Puffer 1030 enthalt eine WAFL-Pufferdatenstruktur 
1030A und einen 4-KB-Direktpuffer 1030B, der eine gecachete Version 
eines entsprechenden plattenintemen 4-KB-Datenblocks enthalt. Der direk- 
te WAFL-Puffer 1030 enthalt nicht einen 4-KB-Puffer wie den Puffer 
1020C des Indirekt-WAFL-Pufifers 1020. Der zweite Pufferzeiger der 
WAFL-Pufferdatenstruktur 1030A wird auf Null gesetzt und zeigt daher 
nicht auf einen zweiten 4-KB-Puffer. Dies verhindert eine nicht effiziente 
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Verwendung von Speicher, da ansonsten Speicherbereich fur einen unbe- 
nutzten Puffer bereitgestellt wiirde. 

In einem WAFL-Dateisystem, wie es in Figur 10 gezeigt ist, referenziert 
5 eine interne WAFL-Inodenstruktur 1010 einen Baum von WAFL- 
Pufferstnikturen 1020-1024 und 1030-1034. Dieser ahnelt einem Baum 
von plattenintemen Blocken, die durch Standard-Inoden referenziert wer- 
den, welche Blocknummem aufweisen, die auf indirekte und/oder direkte 
Blocke zeigen. Damit enthalt die WAFL-Inode 1010 nicht nur die 16 Vo- 
10 lumen-Blocknummem enthaltende platteninteme Inode lOlOD, sondem 
enthalt auBerdem 16 Pufferzeiger lOlOC, welche auf WAFL- 
Pufferstrukturen 1020-1024 und 1030-1034 zeigen. WAFL-Pufifer 1030- 
1034 enthalten gecachete Inhalte von Blocken, die durch Volumen- 
Blocknummem referenziert werden. 

15 

Die WAFL-Intem-Inode 1010 enthalt 16 Pufferzeiger 10 IOC. Bhrerseits 
werden die 16 Pufferzeiger lOlOC durch eine WAFL-Pufferstruktur lOlOB 
referenziert, die die Wiirzel fur den Baum aus WAFL-Pufifem 1020-1024 
und 1030-1034 bildet Somit enthalt jede WAFL-Inode 1010 eine WAFL- 

20 Pufferstruktur lOlOB, die auf die 16 Pufferzeiger lOlOC innerhalb der 
Inode 1010 zeigt. Dies erleichtert die rekursive Implementierung von Al- 
gorithmen zum Handhaben von Puffer-Baumen. Wenn die 16 Pufferzeiger 
lOlOC irmerhalb der Inode 1010 nicht durch eine WAFL-Pufferstruktur 
101 OB reprasentiert wurden, lieBe sich der rekursive Algorithmus zum 

25 Bearbeiten des gesamten Baimis von Puffem 1020-1024 xmd 1030-1034 
nur schwer implementieren. 

Figuren 9A-9D sind Diagramme, die Inoden mit unterschiedlichen Umwe- 
geebenen zeigen. In Figuren 9A-9D sind zur Darstellung der Indirektheit 
30 Oder der Umwege indirekte und direkte WAFL-Puffer dargestellt. Aller- 
dings sollte gesehen werden, daB die WAFL-Pufifer in Figur 9 entspre- 
chende indirekte oder direkte Puffer aus Figur 10 reprasentieren. Bei einer 
kleinen Datei mit einer GroBe von 64 Bytes oder weniger werden Daten 
direkt in der Inode selbst gespeichert, imd nicht die 16 Pufferzeiger. Figur 
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9A ist ein Diagramm, das eine Inode 820 der Ebene Null veranschaulicht, 
bei der es sich um die gleiche Inode handelt wie die Inode 820 in Figur 8, 
nur daB die Inode 820 an Stelle von 16 Pufferzeigem 820B nunmehr 64 
Datenbytes 920B enthalt. Deshalb werden bei sehr kleinen Dateien keine 
zusatzlichen Puffer zugewiesen. 

Bei einer Datei mit einer GroBe von weniger als 64 KB referenziert jeder 
der 16 Pufferzeiger direkt einen direkten 4-KB-WAFL-Puffer. Figur 9B ist 
ein Diagramm einer Inode 820 der Ebene 1 mit 16 Pufferzeigem 820B. Die 
Pufferzeiger PTR0-PTR15 zeigen auf entsprechende direkte 4-KB-WAFL- 
Puffer922A-922C. 

Bei einer Datei, die groBer oder gleich 64 KB und kleiner als 64 MB ist, 
referenziert jeder der 16 Pufferzeiger einen einfach-indirekten WAFL- 
Puffer. Jeder einfach-indirekte 4-KB-WAFL-Puffer seinerseits umfaBt 
1024 Pufferzeiger, welche 4-KB-Direkt-WAFL-Puffer referenzieren. Figur 
9C ist ein Diagramm einer Inode 820 der Ebene 2 mit 16 Pufferzeigem 
820B, welche 16 einfach-indirekte WAFL-Puffer 930A-930C referenzie- 
ren. GemSB Figur 9C zeigt der Pufferzeiger PTRO auf einen einfach- 
indirekten WAFL-Pufifer 930A. Der einfach-indirekte WAFL-Puffer 930A 
enthSlt 1024 Zeiger, die 4-KB-Direkt-WAFL-Puffer 940A-940C referen- 
zieren. In ahnlicher Weise konnen einfach-indirekte WAFL-Puffer 930B- 
930C jeweils bis zu 1024 direkte WAFL-Puffer adressieren. 

Bei einer DateigroBe von mehr als 64 MB referenzieren die 16 Pufferzei- 
ger der Inode doppelt-indirekte WAFL-Puffer. Jeder 4 KB umfassende, 
doppelt-indirekte WAFL-Puffer enthalt 1024 Zeiger, die auf zugehorige 
einfach-indirekte WAFL-Puffer zeigen. Jeder einfach-indirekte WAFL- 
Puffer semerseits umfaBt 1024 Zeiger, die auf direkte 4 KB-WAFL-Puffer 
zeigen. Damit konnen bis zu 64 GB adressiert werden. Figur 9D ist ein 
Diagramm einer Inode 820 der Ebene 3 mit 16 Zeigem 820B, wobei Zei- 
ger PTRO, PTRl und PTR15 doppelt-indirekte WAFL-Puffer 970 A, 970B 
bzw. 970C referenzieren. Der doppelt-indirekte WAFL-Puffer 970A ent- 
halt 1024 Zeiger, die auf 1024 einfach-indirekte WAFL-Puffer 980A-980B 


zeigen. Jeder einfach-indirekte WAFL-Puffer 980A-980B wiedemm refe- 
renziert 1024 direkte WAFL-Puffer. Wie in Figur 9D zu sehen ist, referen- 
ziert der einfach-indirekte WAFL-Puffer 980A 1024 direkte WAFL-PufFer 
990A-990C, und der einfach-indirekte WAFL-Puffer 980B referenziert 
5 1 024 direkte WAFL-Puffer 990D-990F. 

Verzeichnisse 

Verzeichnisse innerhalb des WAFL-Systems sind in 4-KB-Bl6cken ge- 

10 speichert, welche in zwei Abschnitte aufgeteilt sind. Figur 14 ist ein Dia- 
gramm, das einen Verzeichnisblock 1410 gemafi der Erfindung veran- 
schaulicht. Jeder Verzeichnisblock 1410 enthalt einen ersten Abschnitt 
1410A mit Verzeichniseintrag-Strukturen 1412-1414 fester Lange, und 
einen zweiten Abschnitt 141 OB, der die aktuellen Verzeichnisnamen 1416- 

15 1418 enthalt. Jeder Verzeichniseintrag enthalt auBerdem eine Datei-ID, das 
heiCt eine Datei-Kennung und eine Generation, Diese Information kenn- 
zeichnet, welche Datei der Eintrag referenziert. Diese Information ist im 
Stand der Technik bekannt xmd deshalb in Figur 14 nicht dargestellt. Jeder 
Eintrag 1412-1414 im ersten Abschnitt 141 OA des Verzeichnisblocks be- 

20 sitzt einen Zeiger auf seinen Namen innerhalb des zweiten Abschnitts 
1410B. AuBerdem enthalt jeder Eintrag 1412-1414 einen Hash- Wert, ab- 
hangig von seinem Namen in dem zweiten Abschnitt 141 OB, so daB der 
Name nur imtersucht wird, wenn es zu einem Hash-Trefifer (einer Hash- 
Ubereinstimmung) kommt. Beispielsweise enthalt der Eintrag 1412 des 

25 ersten Abschnitts 141 OA einen Hash- Wert 1412A imd einen Zeiger 1412B, 
Der Hash- Wert 1412A ist ein Wert, der von dem Verzeichnis-Namen 
„VERZEICHNIS_ABC" abhangt, der in dem Eintrag variabler Lange 1416 
des zweiten Abschnitts 1410B abgespeichert ist. Der Zeiger 1412B des 
Eintrags 1410 zeigt auf den Eintrag variabler Lange, 1416, des zweiten 

30 Abschnitts 1410B. Unter Verwendung von Verzeichniseintragen fester 
Lange, 1412-1414 in dem ersten Abschnitt 1410A beschleunigt sich der 
Vorgang des Namen-Nachschauens. Zum Auffmden des nachsten Eintrags 
innerhalb eines Verzeichnisblocks 1410 ist keine Rechmmg erforderlich, 
Durch Halten der Eintrage 1412-1414 in dem ersten Abschnitt 141 OA auf 
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einem kleinen Wert verbessert sich die Trefferrate fur Dateisysteme mit 
einem ZeilenfuUer-Datencache. 

Meta-Daten 

5 

WAFL ftihrt Information, die ein Dateisystem in Dateien beschreibt, wel- 
che als Meta-Daten bekannt sind. Meta-Daten nmfassen eine Inodendatei, 
eine inomap-Datei xind eine blkmap-Datei. WAFL speichert seine Meta- 
Daten in Dateien, die irgendwo auf einer Platte aufgezeichnet werden kon- 
10 nen. Weil samtliche WAFL-Meta-Daten in Dateien gefuhrt werden, lassen 
sie sich an eine beliebe Stelle schreiben, so wie jede andere Datei inner- 
halb der Datenbank. 

Eine erste Metadaten-Datei ist die ,Jnodendatei", die Inoden enthalt, wel- 

15 che samtliche anderen Dateien innerhalb der Datenbank beschreiben. Figur 
12 ist ein Diagramm einer Inodendatei 1210. Die Inodendatei 1210 kann 
irgendwo anf einer Platte aufgezeichnet werden, im Gegensatz zu bekann- 
ten Systemen, welche ,Jnodentabellen" auf eine feste Stelle der Platte 
schreiben. Die Inodendatei 1210 enthalt eine Inode 1210A-1210F fur jede 

20 Datei innerhalb des Dateisystems, ausgenommen die Inodendatei 1210 
selbst. Gezeigt wird auf die Inodendatei 1210 durch eine als die „Wurzeli- 
node" bezeichnete Inode. Die Wurzelinode wird an einer festen Stelle auf 
der Platte gehalten, bezeichnet als weiter imten noch zu beschreibender 
Dateisysteminformationsblock (fsinfo-Block). Die Inodendatei 1210 selbst 

25 ist in 4-KB-Blocken auf der Platte (oder 4-KB-Puffem im Speicher) abge- 
speichert. Figur 12 veranschaulicht, dafi Inoden 1210A-1210C in einem 4- 
KB-Puffer 1220 gespeichert sind. Fur GroBen von plattenintemen Inoden 
von 128 Bytes umfaBt ein 4-KB-Puffer (oder Block) 32 Inoden. Die Intem- 
Inodendatei 1210 setzt sich zusammen aus WAFL-Puffem 1220. Wenn 

30 eine Intem-Inode (das heifit 1210A) geladen wird, wird der platteninteme 
Inodenteil der Intem-Inode 1210A fur den Puffer 1220 der Inodendatei 
1210 einkopiert. Die Pufferdaten selbst werden von der Platte her geladen. 
Das Schreiben von Daten auf die Platte erfolgt in umgekehrter Reihenfol- 
ge. Die Intem-Inode 1210A, die eine Kopie der plattenintemen Inode ist. 
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wird in den entsprechenden Puffer 1220 der Inodendatei 1210 kopiert. An- 
schlieBend wird die Inodendatei 1210 fiir das Schreiben zugewiesen, und 
die in dem Puffer 1220 der Inodendatei 1210 gespeicherten Daten werden 
auf die Platte geschrieben. 

5 

Eine weitere Metadaten-Datei ist die ,31ockabbiId"-Datei (blkmap-Datei), 
Figur llA ist ein Diagramm, welches eine blkmap-Datei 1110 zeigt. Die 
blkmap-Datei 1110 enthalt einen 32 Bits umfassenden Eintrag lllOA- 
11 IOC fur jeden 4-KB-Block innerhalb des Plattenlaufwerksystems. Sie 

10 dient auBerdem als Abbilddatei fiir freie Blocke. Die blkmap-Datei 1110 
gibt an, ob ein Plattenblock belegt wurde oder nicht. Figur 11 B ist ein Dia- 
gramm eines Blockeintrags lllOA der blkmap-Datei 1110 (dargestellt in 
Figur 11 A). Wie in Figur IIB gezeigt ist, umfaBt der Eintrag UlOA 32 
Bits (BIT0-BIT31). Bit 0 (BITO) des Eintrags lllOA ist das Aktiv- 

15 Dateisystem-Bit (FS-Bit). Das FS-Bit des Eintrags UlOA gibt an, ob der 
entsprechende Block Teil des aktiven Dateisystems ist oder nicht. Die Bits 
1-20 (BIT1-BIT20) des Eintrags lllOA sind Bits, welche angeben, ob der 
Block Teil eines entsprechenden Schnappschusses (Zwischensicherung) 1- 
20 ist. Die nachsten oberen 10 Bits (BIT21-BIT30) sind reserviert. Bit 31 

20 (BIT3 1) ist das Konsistenzpunkt-Bit (CP-BIT) des Eintrags 1 11 OA, 

Ein Block ist als ein fireier Block in dem Dateisystem dann verfugbar, 
wenn samtliche Bits (BIT0-BIT31) in dem 32 Bit umfassenden Eintrag 
1 1 lOA fiir den Block geloscht sind (auf einen Wert 0 zuruckgesetzt). Figur 

25 1 IC ist ein Diagramm, welches den Eintrag 11 lOA der Figur 1 lA veran- 
schaulicht, wenn dieser anzeigt, daB der Plattenblock frei ist. Demnach ist 
der durch den Eintrag lllOA der blkmap-Datei 1110 referenzierte Block 
dann frei, wenn die Bits 0-31 (BIT0-BIT31) samtlich einen Wert 0 haben. 
Figur 1 ID ist ein Diagramm, welches den Eintrag 1 1 lOA der Figur 1 1 A in 

30 dem Zustand zeigt, in welchem er einen belegten Block in dem aktiven 
Dateisystem angibt. Wenn das Bit 0 (BITO), auch als FS-Bit bezeichnet, 
auf einen Wert 1 gesetzt ist, kennzeichnet der Eintrag 1 UOA der blkmap- 
Datei 1110 einen Block, der Teil des aktiven Dateisystems ist. Bits 1-20 
(BIT1-BIT20) dienen zum Anzeigen entsprechender Schnappschiisse, falls 
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vorhanden, die den Block referenzieren. Schnappschiisse werden unten im 
einzelnen erlautert. Wenn das Bit 0 (BITO) auf einen Wert 0 gesetzt ist, so 
zeigt dies nicht unbedingt an, daJ3 der Block fur die Belegung zur Verfii- 
gung steht. Samtliche SchnappschuB-Bits mussen 0 sein, damit der Block 
zugewiesen werden kann. Bit 31 (BIT31) des Eintrags lllOA hat stets 
denselben Zustand als Bit 0 (BITO) auf der Platte, wird aber, wenn er in 
das Speicherbit 31 (BIT31) geladen Avird, zur Buchfuhrung als Teil eines 
Konsistenzpunkts verwendet. 

Eine weitere Metadaten-Datei ist die „Inodenabbild"-Datei (inomap- 
Datei), die als ein Abbild fur freie Inoden dient. Figur 13A ist ein Dia- 
gramm, welches eine Inodenabbild-Datei veranschaulicht. Die inomap- 
Datei 1310 enthalt einen 8 Bits umfassenden Eintrag 1310A-1310C fur 
jeden Block innerhalb der in Figur 12 gezeigten Inoden-Datei 1210. Jeder 
Eintrag 1310A-1310C ist eine Zahlung zugeordneter oder belegter Inoden 
in dem entsprechenden Block innerhalb der Inoden-Datei 1210. Figur 13 A 
zeigt Werte 32,5 bzw. 0 in den Eintragen 1310A-1310C. Die Inoden-Datei 
1210 muB noch inspiziert werden, um herauszufinden, welche Inoden in - 
dem Block frei sind, dies erfordert jedoch nicht das Umladen gr5Berer 
Mengen beliebiger Blocke von der Platte in den Speicher. Da jeder 4-KB- 
Block 1220 der Inodendatei 1210 32 Inoden aufiiinimt, kann der 8 Bits 
umfassende inomap-Eintrag 1310A-1310C fur jeden Block in der Inoden- 
Datei 1210 Werte annehmen, die zwischen 0 und 32 liegen. Wenn ein 
Block 1220 einer Inoden-Datei 1210 keine Inoden im Gebrauch hat, so ist 
der Eintrag 1310A-1310C fur ihn innerhalb der Inomap-Datei 1310 „0". 
Wenn sSmtliche Inoden in dem Block 1220 der Inodendatei 1210 im Ge- 
brauch sind, hat der Eintrag 1310A-1310C der inomap-Datei 1310 einen 
Wert 32. 

Figur 13B ist ein Diagramm, das eine inomap-Datei 1350 veranschaulicht, 
welche die 4-KB-Bl6cke 1340A-1340C der Inoden-Datei 1340 referen- 
ziert. Beispielsweise speichert die Inoden-Datei 1340 37 Inoden in drei 4- 
KB-Bl6cken 1340A-1340C. Bl6cke 1340A-1340C der Inoden-Datei 1340 
enthalten 32,5 bzw. 0 verwendete Inoden. Eintrage 1350A-1350C der 
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blkmap-Datei 1350 referenzieren Blocke 1340A-1340C der Inoden-Datei 
1340. Damit haben die Eintrage 1350A-1350C der inomap-Datei Werte 
von 32,5 und 0 fiir Blocke 1340A-1340C der Inoden-Datei 1340. Die Ein- 
trage 1350A-1350C der inomap-Datei wiederum kennzeichnen 0,27 bzw. 
5 32 freie Inoden in den Blocken 1340A-1340C der Inoden-Datei 1340. 

Bezugnehmend auf Figur 13 ist die Verwendung einer bitweisen Moment- 
aufnahme fur die Eintrage 1310A-1310C der inomap-Datei 1310 an Stelle 
von Zahlwerten deshalb von Nachteil, weil vier Bytes pro Eintrag 1310A- 
10 1310C fur den Block 1220 der Inoden-Datei 1210 (in Figur 12 dargestellt), 
und nicht nur ein Byte erforderlich waren. Freie Inoden im Block bzw, in 
den Blocken 1220 der Inoden-Datei 1210 mussen innerhalb der inomap- 
Datei 1310 deshalb nicht angezeigt werden, weil die Inoden selbst diese 
Information enthalten. 

15 

Figur 15 ist ein Diagramm, welches eine Dateisysteminformationsstruktur 
(fsinfo) 1510 veranschaulicht. Die Wurzelinode 1510B eines Dateisystems 
wird an einer festen Stelle auf der Platte gehalten, so daB sie beim Booten 
des Dateisystems geortet werden kann. Der fsinfo-Block ist keine Metada- 

20 ten-Datei, sondem Teil des WAFL-Systems. Die Wxuzelinode 151 OB ist 
eine Inode, die auf die Inoden-Datei 1210 Bezug ninmit Sie ist Teil der 
Dateisysteminformationsstruktur (fsinfo) 1510, die auBerdem Inforaiation 
1510A einschlieBlich der Anzahl von Blocken in dem Dateisystem, die 
Entstehxmgszeit des Dateisystems etc. enthalt. Die vermischte Information 

25 1510A enthalt auBerdem eine Prufsxunme 15 IOC (diese wird unten noch 
beschrieben). Mit Ausnahme der Wurzelinode 1510B selbst kann diese 
Information 1510A in einer Metadaten-Datei einer anderen Ausfuhrungs- 
form gehalten werden. In festen Platzen auf der Platte werden zwei identi- 
sche Kopien der fsinfo-Struktur 1510 gehalten. 

30 

Figur 16 ist ein Diagramm, welches das WAFL-Dateisystem 1670 in ei- 
nem konsistenten Zustand auf einer Platte mit zwei fsinfo-BIocken 1610 
und 1612, einer Inoden-Datei 1620, einer blkmap-Datei 1630, einer ino- 
map-Datei 1640, einem Wurzelverzeichnis 1650 und einer typischen Datei 
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(oder einem Verzeichnis) 1660 zeigt. Die Inoden-Datei 1620 besteht aus 
mehreren Inoden 1620A-1620D, welche andere Dateien 1630-1660 in dem 
Dateisystem 1670 referenzieren. Die Inode 1620A der Inoden-Datei 1620 
referenziert die blkmap-Datei 1630. Die Inode 1620B referenziert die ino- 
5 map-Datei 1640, Die Inode 1620C referenziert das Wurzelverzeichnis 
1650. Die Inode 1620D referenziert eine typische Datei (oder ein typisches 
Verzeichnis) 1660. Somit zeigt die Inoden-Datei auf samtliche Dateien 
1630-1660 innerhalb des Dateisystems 1670, ausgenommen die fsinfo- 
Blocke 1610 imd 1612. Die fsinfo-Blocke 1610 und 1612 enthalten jeweils 

10 eine Kopie 161 OB bzw. 1612B der Inode der Inoden-Datei 1620. Weil die 
Wurzelinode 1610B und 1612B der fsinfo-Blocke 1610 und 1612 die Ino- 
den-Datei 1620 beschreibt, die ihrerseits den Rest der Dateien 1630-1660 
in dem Dateisystem 1670 einschlieBlich samtlicher Metadaten-Dateien 
1630-1640 beschreibt, wird die Wurzelinode 1610B und 1612B als die 

15 Wurzel eines Baums von Blocken betrachtet. Das WAFL-System 1620 
verwendet diese Baumstruktur fiir ihr Aktualisierungsverfahren (Konsi- 
stenzpunkt) xmd zum Implementieren von Schnappschtissen, die beide un- 
ten noch beschrieben werden. 

20 Liste von Inoden mit unsauberen Blocken 

Interne WAFL-Inoden (das heiBt die WAFL-Inode 1010 gemaB Figur 10) 
des WAFL-Dateisystems werden in unterschiedlich verknupften Listen 
entsprechend ihrem Status gehalten. Inoden, die sich auf imsaubere Blocke 

25 beziehen, werden in einer in Figur 2 gezeigten Liste fiir unsaubere Inoden 
gehalten. Zulassige Daten enthaltende Inoden, die nicht unsauber sind, 
werden in einer separaten Liste gehalten, xmd Inoden, die keine zulassigen 
Daten auf^v^eisen, werden in einer noch weiteren Liste gefuhrt, wie dies im 
Stand der Technik bekaimt ist Die vorliegende Erfindung macht Gebrauch 

30 von einer Liste von Inoden mit vmsauberen Datenblocken, was das Auffin- 
den samtlicher Inoden erleichtert, bei denen Schreibzuweisungen erforder- 
lich sind. 
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Figur 2 ist ein Diagramm, das eine Liste 210 unsauberer Inoden gemaO der 
Erfindung veranschaulicht. Die Liste 210 unsauberer Inoden enthalt 
WAFL-inteme Inoden 220-1750. Wie in Figur 17 gezeigt ist, enthalt jede 
WAFL-inteme Inode 220-250 einen Zeiger 220A-250A, der auf eine wei- 
5 tere Inode in der verknupften Liste zeigt. Beispielsweise sind WAFL- 
Inoden 220-250 im Speicher an Stellen 2048, 2152, 2878, 3448 bzw. 3712 
gespeichert. Dementsprechend enthalt der Zeiger 220A der Inode 220 die 
Adresse 2152. Sie verweist deshalb auf die WAFL-Inode 222. Die WAFL- 
Inode 222 wiedenim zeigt mit Hilfe der Adresse 2878 auf die WAFL- 

10 Inode 230. Die WAFL-Inode 230 verweist auf die WAFL-Inode 240. Die 
WAFL-Inode 240 zeigt auf die Inode 1750. Der Zeiger 250 der WAFL- 
Inode 250 enthalt einen Null- Wert mid zeigt daher nicht auf eine weitere 
Inode. Somit ist sie die letzte Inode innerhalb der Liste 210 fur unsaubere 
Inoden. Jede Inode in der Liste 210 reprasentiert eine Datei aus einem 

15 Baum von Puffern, wie dies in Figur 10 dargestellt ist. Mindestens einer 
der von jeder Inode 220-250 referenzierte Puffer ist ein xmsauberer Puffer. 
Ein unsauberer Puffer enthalt modifizierte Daten, die auf eine neue Spei- 
cheiplattenstelle in dem WAFL-System geschrieben werden mussen. 
WAFL schreibt stets unsaubere Puffer auf neue Speicherstellen der Platte. 

20 

KONSISTENZPUNKTE 

Die WAFL-Plattenstruktur, wie sie bisher beschrieben wurde, ist statisch. 
ErfindungsgemaB werden Anderungen des Dateisystems 1670 streng ge- 

25 steuert, irni das Dateisystem 1670 in einem konsistenten Zustand zu halten. 
Das Dateisystem 1670 schreitet von einem selbstkonsistenten Zustand zu 
einem anderen selbstkonsistenten Zustand weiter. Die Menge (oder der 
Damn) selbstkonsistenter Blocke auf der Platte mit ihrem Ursprung in der 
Wurzelinode 1510B wird als Konsistenzpimkt (CP) referenziert. Um Kon- 

30 sistenzpunkte zu implementieren, schreibt WAFL stets neue Daten in 
nicht-zugewiesene Blocke auf der Platte. Es uberschreibt niemals existie- 
rende Daten. Solange also die Wurzelinode 1510B nicht aktualisiert ist, 
andert sich der Zustand des Dateisystems 1670, wie er sich auf der Platte 
darstellt, nicht. Damit das Dateisystem 1670 aber brauchbar ist, muB es 
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gelegentlich auf neu geschriebene Daten Bezug nehmen, und deshalb muB 
dann ein neuer Konsistenzpunkt geschrieben werden. 

Bezugnehmend auf Figur 16, wird ein neuer Konsistenzpunkt dadurch ge- 
5 schrieben, daB zunachst samtliche Dateisystem-Blocke auf neue Stellen 
der Flatten umgeraumt werden (einschlieBlich der Blocke in Metadaten- 
Dateien, so wie die Inoden-Datei 1620, die blkmap-Datei 1630 und die 
inomap-Datei 1640). Eine neue Wurzelinode 161 OB und 1612B fur das 
Dateisystem 1670 wird dann auf die Platte geschrieben, Mit diesem Ver- 
io fahren zur automatischen Aktualisierung eines Dateisy stems ist das plat- 
teninterne Dateisystem niemals inkonsistent. Das platteninteme Dateisy- 
stem 1670 reflektiert einen alten Konsistenzpxmkt, bis die Wurzelinode 
1610B imd 1612B geschrieben ist. Unmittelbar nach dem Schreiben der 
Wurzelinode 1610B und 1612B auf die Platte reflektiert das Dateisystem 
15 1670 einen neuen Konsistenzpunkt. Datenstrukturen des Dateisystems 
1670 k5nnen in beliebiger Reihenfolge aktualisiert werden, es gibt keiner- 
lei Ordnungsbeschrankungen bei plattenintemen Schreibvorgangen, aus- 
genommen das eine Erfordemis, gemaB dem samtliche B15cke in dem Da- 
teisystem 1670 auf die Platte geschrieben werden miissen, bevor die Wur- 
20 zelinode 1610B und 1612B aktualisiert wird. 

Um in einen neuen Konsistenzpunkt umgewandelt werden zu konnen, muB 
die Wurzelinode 1610B und 1612B zuverlassig imd elementar aktualisiert 
werden. WAFL tut dies dadurch, daB zwei identische Kopien der fsinfo- 

25 Struktur 1610 und 1612 gehalten werden, welche die Wurzelinode 1610B 
xmd 1612B enthalten. Wahrend der Aktualisierung der Wurzelinode 1610B 
imd 1612B wird eine Kopie der fsinfo-Struktur 1610 auf die Platte ge- 
schrieben, anschlieBend wird die zweite Kopie der fsinfo-Struktur 1612 
geschrieben. Eine Prufsumme 1610C und 1612C in der fsinfo-Struktur 

30 1610 bzw. 1612 dient zum Feststellen des Auftretens eines Systemzusam- 
menbruchs, welches eine der Kopien der fsinfo-Struktur 1610 oder 1612, 
die jeweils eine Kopie der Wurzelinode enthalten, beim Schreiben auf die 
Platte verfalscht. Normalerweise sind die beiden fsinfo-Strukturen 1610 
imd 1612 identisch. 
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Algorithmus zum Erzeugen eines Konsistenzpunkts 

Figur 5 ist ein Diagramm, welches das Verfahren zum Erzeugen eines 
Konsistenzpunkts veranschaulicht. Im Schritt 510 werden samtliche „un- 
5 sauberen" Inoden (also Inoden, die auf neue, modifizierte Daten enthalten- 
de Blocke zeigen) in dem System als im Konsistenzpunkt ihrer Inhalte 
befindlich markiert, und es wird nur ihr jeweiliger Inhalt auf die Platte 
geschrieben. Nur wenn diese Schreibvorgange abgeschlossen sind, durfen 
weitere Schreibvorgange aus anderen Inoden die Platte erreichen. AuBer- 
10 dem koimen wahrend der Zeit, in der unsaubere Schreibvorgange stattfin- 
den, keine neuen Modifikationen an Inoden vorgenommen werden, die 
sich in dem Konsistenzpxmkt befinden. 

Zusatzlich zur Einstellung des Konsistenzpunkt-Flags fur samtliche unsau- 
15 beren Inoden, die Teil des Konsistenzpunkts sind, wird ein globales Konsi- 
stenzpunkt-Flag gesetzt, so daB seitens eines Benutzers angeforderte Ande- 
rungen sich in streng gesteuerter Weise verhalten. Nachdem das globale 
Konsistenzpunkt-Flag gesetzt ist, werden benutzerseitig angeforderte An- 
derimgen, welche in dem Konsistenzpunkt befindliche Inoden beeinflus- 
20 sen, nicht zugelassen. AuBerdem wird nur Inoden mit gesetztem Konsi- 
stenzpunkt-Flag Plattenspeicherplatz fiir ihre unsauberen Blocke zugewie- 
sen. Folglich wird der Zustand des Dateisystems auf die Platte geraumt, 
genauso, wie dies zu Beginn des Konsistenzpimkts geschah. 

25 Im Schritt 520 werden regulare Dateien auf Platte geraumt. Das Raumen 
regularer Dateien umfaBt den Schritt des Zuweisens von Plattenspeicher- 
platz fur unsaubere Blocke in den regularen Dateien, auBerdem das Schrei- 
ben der entsprechenden WAFL-Puffer auf die Platte. Die Inoden selbst 
werden anschlieBend in die Inoden-Datei geraumt (kopiert). Samtliche 

30 Inoden, die zu beschreiben sind, befinden sich entweder in der Liste von 
Inoden mit unsauberen Puffem oder in der Liste von Inoden, die unsauber 
sind, jedoch keine unsauberen Puffer enthalten. Wenn der Schritt 520 ab- 
geschlossen ist, gibt es keine weiteren regularen Inoden in dem Konsi- 
stenzpunkt, und samtliche ankommenden E/A-Anforderungen verlaufen 
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erfolgreich, es sei derm, die Anforderungen verwenden Puffer, die fiir Plat- 
ten-E/A-Operationen noch gesperrt sind. 

Im Schritt 530 werden Spezialdateien auf die Platte geraumt. Das Raumen 
5 von Spezialdateien ximfaBt den Schritt des Zuordnens von Plattenspeicher- 
platz fiir unsaubere Blocke in den beiden Spezialdateien: die Inoden-Datei 
und die blkmap-Datei, das Aktualisieren des Konsistenzbits (CP-Bit), da- 
mit Ubereinstimmung mit dem aktiven Dateisystem-Bit (FS-Bit) fur jeden 
Eintrag in der blkmap-Datei herrscht, und anschlieCendes Einschreiben der 

10 Blocke in die Platte. Die Schreibzuordnung der Inoden-Datei und der 
blkmap-Datei ist deshalb kompliziert, weil der Vorgang ihrer Schreibzu- 
weisung die Dateien selbst andert, Somit werden im Schritt 530 Schreib- 
vorgange gesperrt, wahrend diese Dateien geandert werden, um zu verhin- 
dem, dafi wichtige Blocke fiir Platten-E/A-Operationen gesperrt werden, 

15 bevor die Anderungen abgeschlossen sind. 

Im Schritt 530 werden aufierdem die unten noch beschriebenen Schritte 
des Erzeugens und Loschens von Schnappschussen durchgefuhrt, da dies 
der einzige zeitliche Punkt ist, zu welchem das Dateisystem - ausgenom- 
20 men den fsinfo-Block - vollstandig selbstkonsistent ist imd gerade dabei 
ist, auf die Platte geschrieben zu werden, Ein SchnappschuB wird aus dem 
Dateisystem geloscht, bevor ein neuer erzeugt wird, so daB in einem 
Durchgang dieselbe SchnappschuB-Inode verwendet werden kann. 

25 Figur 6 ist ein FluBdiagramm, welches die Schritte darstellt, die der Schritt 
530 umfafit. Schritt 530 ordnet Plattenspeicherraimi fur die blkmap-Datei 
und die Inoden-Datei zu und kopiert das aktive FS-Bit in das CP-Bit fur 
jeden Eintrag der blkmap-Datei. Dies garantiert, daB der Block in der Ino- 
den-Datei, der die Inode der blkmap-Datei enthalt, unsauber ist, so daB der 

30 Schritt 620 hierfur Plattenspeicherraum zuweist. 

Im Schritt 620 wird fur samtliche unsauberen Blocke in der Inode und den 
blkmap-Dateien Plattenspeicherplatz zugewiesen. Die unsauberen Blocke 
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enthalten den Block der Inoden-Datei, der die Inode der blkmap-Datei als 
unsauberen Block enthalt. 

Im Schritt 630 wird die Inode fiir die blkmap-Datei emeut geraumt, aller- 
dings wird diesmal die aktuelle Inode in den vorab geraiimten Block in der 
Inoden-Datei geschrieben, Schritt 610 hat bereits den Block der Inoden- 
Datei verfalscht, welche die Inode der blkmap-Datei enthalt. Damit 
braucht kein weiterer Schreibzuweisungsschritt entsprechend dem Schritt 
620 geplant zu werden. 

Im Schritt 640 werden die Eintrage fur jeden Block in der blkmap-Datei 
aktualisiert. Jeder Eintrag wird dadurch aktualisiert, daB das aktive FS-Bit 
in das CP-Bit kopiert wird (das heiBt Einkopieren des Bits 0 in das Bit 31), 
imd zwar bei samtlichen Eintragen in unsauberen Blocken imierhalb der 
bUanap-Datei. 

Im Schritt 650 werden samtliche unsauberen Blocke in den blkmap- xmd 
Inoden-Dateien auf die Platte geschrieben, 

Nur fiir Eintrage in unsauberen Blocken der blkmap-Datei muB das aktive 
Dateisystem-Bit (FS-Bit) im Schritt 640 in das Konsistenzpxmkt-Bit (CP- 
Bit) kopiert werden, Unmittelbar nach einem Konsistenzpunkt besitzen 
samtliche blkmap-Eintrage denselben Wert sowohl fur das aktive FS-Bit 
als auch das CP-Bit. Mit fortschreitender Zeit werden einige aktive FS-Bits 
von blkmap-Datei-Eintragen fiir das Dateisystem entweder geloscht oder 
gesetzt. Die Blocke der blkmap-Datei, die geanderte FS-Bits enthalten, 
werden entsprechend als imsauber markiert. Wahrend des folgenden Kon- 
sistenzpunkts brauchen saubere Blocke nicht zuriickkopiert zu werden. Die 
sauberen Blocke werden deshalb nicht kopiert, sie an dem vorhergehenden 
Konsistenzpunkt nicht imsauber waren und sich in den Blocken seitdem 
nichts geandert hat. Solange also das Dateisystem zu Beginn mit dem akti- 
ven FS-Bit und dem CP-Bit gleichen Werts in samtlichen blkmap- 
Eintragen erzeugt wurde, brauchen lediglich Eintrage bei unsauberen 
Blocken in jedem Konsistenzpunkt aktualisiert zu werden. 
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Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisysteminformati- 
onsblock (Fsinfo) aktualisiert und dann auf die Platte geraumt. Der Fsinfo- 
Block wird dadurch aktualisiert, daB in ihn fur die Inoden-Datei eine neue 
Wurzelinode eingeschrieben wird. Der Fsinfo-Block wird zweimal ge- 

5 schrieben. Zuerst wird er an eine Stelle und dann an eine zweite Stelle ge- 
schrieben. Die zwei Schreibvorgange werden derart ausgefuhrt, daB dann, 
wenn wahrend des einen oder des anderen Schreibvorgangs ein Systemzu- 
sanimenbruch erfolgt, auf der Platte ein selbstkonsistentes Dateisystem 
vorliegt. Bei einem Systemzusammenbruch wahrend des Schreibvorgangs 

10 des zweiten Fsinfo-Blocks ist dann entweder der neue Konsistenzpunkt 
verfugbar, oder es ist der vorhergehende Konsistenzpunkt (auf der Platte 
vor Beginn des jungsten Konsistenzpunkts) vorhanden, wenn der erste 
Fsinfo-Block ausgefallen ist, Wenn das Dateisystem nach einem System- 
ausfall neu gestartet wird, wird die hochste Generationenzahlxmg fur einen 

15 Konsistenzpunkt in den Fsinfo-Blocken mit einem korrekten Prufsum- 
menwert verwendet. Dies wird weiter imten noch naher erlautert. 

Im Schritt 550 wird der Konsistenzpunkt abgeschlossen. Dies macht es 
erforderlich, daB jegliche unsaubere Lioden, die, weil sie nicht Teil des 

20 Konsistenzpxmkts waren, neu in die Warteschlange gestellt werden. Samt- 
liche Dioden, die ihren Zustand wahrend des Konsistenzpunkts geandert 
haben, werden in die Konsistenzpunkt-Warteschlange (CP_WAIT) ge- 
stellt. Die CP_WAIT.Warteschlange enthalt Inoden, die sich vor AbschluB 
des Schritts 540 geandert haben, jedoch nach dem Schritt 510, wenn der 

25 Konsistenzpunkt gestartet ist. Nach AbschluB des Konsistenzpunkts wer- 
den die Inoden in der CP_WAIT-Warteschlange neu eingeordnet, entspre- 
chend der regularen Liste von Dioden mit imsauberen Puffem imd der Li- 
ste von imsauberen Inoden ohne unsaubere Puffer. 

30 Einzelordnimgsbeschrankung des Konsistenzpunkts 

Wie in den Figuren 20A-20C dargestellt ist, besitzt die vorliegende Erfm- 
dung eine Einzelordnungsbeschrankung. Die Einzelordnungsbeschrankung 
besagt, daB der Fsinfo-Block 1810 nur auf Platte geschrieben wird, nach- 
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dem samtliche iibrigen Blocke auf die Platte geschrieben sind. Das Schrei- 
ben des Fsinfo-Blocks 1810 ist elementar, weil ansonsten das gesamte Da- 
teisystem 1830 verloren gehen konnte. Damit erfordert das WAFL- 
Dateisystem, dafi der Fsinfo-Block 1810 auf einmal geschrieben wird und 
5 sich nicht in einem inkonsistenten Zustand befindet. Wie in Figur 15 ge- 
zeigt ist, enthalt jeder der Fsinfo-Blocke 1810 (1510) eine Priifsunune 
15 IOC und eine Generationenzahlung 1510D, 

Figur 20A veranschaulicht das Aktualisieren der Generationenzahlung 
10 1810D xind 1870D der Fsinfo-Blocke 1810 und 1870. Jedesmal, wenn ein 
Konsistenzpunkt (oder SchnappschuB) ausgefiihrt wird, wird auch die Ge- 
nerationenzahlung des Fsinfo-Blocks aktualisiert. Figur 20A zeigt zwei 
Fsinfo-Blocke 1810 und 1870 mit Generationenzahlungen 1810D und 
1870D, die den gleichen Wert N auf^veisen, was einen Konsistenzpunkt fur 
15 das Dateisystem angibt. Beide Fsinfo-Blocke referenzieren den vorausge- 
henden Konsistenzpunkt (das alte Dateisystem auf der Platte) 1830. Eine 
neue Version des Dateisystems existiert auf der Platte und wird als neuer 
Konsistenzpunkt 1831 referenziert. Die Generationenzahlung wird bei je- 
dem Konsistenzpunkt erhoht. 

20 

In Figur 20B wird die Generationenzahlung 1810D des ersten Fsinfo- 
Blocks 1810 aktualisiert und erhalt einen Wert N+1. Dann wird sie auf die 
Platte geschrieben. Figur 20B veranschaulicht einen Wert N+l fiir die Ge- 
nerationenzahlung 1810D des Fsinfo-Blocks 1810, wohingegen die Gene- 

25 rationenzahlung 1870D des zweiten Fsinfo-Blocks 1870 einen Wert von N 
hat Der Fsinfo-Block 1810 referenziert den neuen Konsistenzpunkt 1831, 
wohingegen der Fsinfo-Block 1870 den alten Konsistenzpunkt 1830 refe- 
renziert. Als nachstes wird die Generationenzahlung 1870D des Fsinfo- 
Blocks 1870 aktualisiert und auf Platte geschrieben, wie dies in Figur 20C 

30 dargestellt ist. In Figur 20C besitzt die Generationenzahlung 1870D des 
Fsinfo-Blocks 1870 einen Wert N+1. Deshalb besitzen beide Fsinfo- 
Blocke 1810 und 1870 den gleichen Generationen-Zahlerstand N-M. 
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Kommt es zu einem Systemzusammenbruch zwischen zwei Fsinfo-Block- 
Aktualisierungen, besitzt jede Kopie des Fsinfo-Blocks 1810 und 1870 
eine (in dem Diagramm nicht gezeigte) selbstkonsistente Prufsumme, je- 
doch weist eine der Generationenzahlen 1810D oder 1870D einen hoheren 

5 Wert auf. Bin Systemzusammenbruch geschieht, wenn das Dateisystem 
sich in dem in Figur 20B gezeigten Zustand befindet. In der bevorzugten 
Ausfuhrungsform der vorliegenden Erfindung gemaB Figur 20B wird die 
Generationenzahlung 1810D des Fsinfo-Blocks 1810 vor dem zweiten 
Fsinfo-Block 1870D aktualisiert, Daher ist die Generationenzahlung 

10 1810D (mit dem Wert Eins) groBer als die Generationenzahlung 1870D 
des Fsinfo-Blocks 1870. Da die Generationenzahlung des ersten Fsinfo- 
Blocks 1810 groBer ist, wird sie zur Wiederherstellxmg des Dateisystems 
nach einem Systemzusammenbruch ausgewahlt. Dies geschieht deshalb, 
weil der erste Fsinfo-Block 1810 mehr laufende Daten enthalt, was durch 

15 seine Generationenzahlxmg 1810D angegeben wird. Falls der erste Fsinfo- 
Block verfalscht wird, da bei seiner AktuaUsierung das System zusam- 
menbricht, so wird die andere Kopie 1870 des Fsinfo-Blocks zur Wieder- 
herstellxmg des Dateisystems 1830 in konsistentem Zustand verwendet. 

20 ErfindimgsgemaB ist es nicht moglich, beide Fsinfo-Blocke 1810 und 1870 
gleichzeitig zu aktualisieren. Deshalb existiert in dem Dateisystem minde- 
stens eine gute Kopie des Fsinfo-Blocks 1810 und 1870. Dies macht es 
moglich, das Dateisystem stets in einem konsistenten Zustand wiederher- 
zustellen. 

25 

WAFL macht keine speziellen Wiederherstellimgsprozeduren erforderlich. 
Dies unterscheidet es von bekannten Systemen, die von ProtokoUierung, 
geordneten Schreibvorgangen und streng geordneten Schreibvorgangen bei 
der Wiederherstellung Gebrauch machen. Dies deshalb, weil nur Datenver- 
30 falschung, gegen die RAID Schutz bietet, oder Software ein WAFL- 
Dateisystem verfalschen kann. Um Datenverlust bei einem Systemausfall 
zu vermeiden, kann WAFL ein nicht-fluchtiges Transaktions-Protokoll fur 
samtliche Operationen ftihren, die nach dem jiingsten Konsistenzpunkt 
erfolgt sind. Dieses ProtokoU ist voUig unabhangig vom WAFL- 
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Plattenformat und ist nur erforderlich, um zu verhindem, daB bei einem 
Systemzusammenbruch Operationen verlorengehen. Allerdings ist es nicht 
erforderlich, die Konsistenz des Dateisystems beizubehalten. 

5 Erzeugen eines Konsistenzpunkts 

Wie oben beschrieben, werden Andeningen des WAFL-Dateisystems 
streng gesteuert, urn das Dateisystem in einem konsistenten Zustand zu 
halten. Figuren 17A-17H veranschaulichen die Erzeugung eines Konsi- 
10 stenzpunkts fur ein WAFL-Dateisystem. Die Erzeugung eines Konsistenz- 
punkts wird anhand der Figuren 5 und 6 erlautert. 

In den Figuren 17A-17L sind Puffer, die nicht modifiziert wurden, ohne 
Stemchen neben sich. Deshalb enthalten Puffer die gleichen Daten wie 

15 entsprechende platteninteme Blocke. Damit laBt sich ein Block in den 
Speicher laden, er ist gegenuber seiner plattenintemen Version jedoch un- 
verandert. Ein Puffer mit einem einzelnen Stemchen (*) daneben bedeutet 
einen unsauberen Puffer in dem Speicher (seine Daten sind modifiziert). 
Ein Puffer mit einem doppelten Stemchen (**) neben sich bedeutet einen 

20 unsauberen Puffer, dem Plattenspeicherplatz zugewiesen ist. SchlieBlich ist 
ein Puffer mit einem Dreifachstemchen (***) ein imsauberer Puffer, der in 
einen neuen Block auf der Platte eingeschrieben ist. Die Konvention zum 
Bezeichnen des Zustands von Puff em wird auch bei den Figuren 21A-21E 
benutzt. 

25 

Figur 17A zeigt eine Liste 2390 von Inoden mit xmsauberen Puffem, um- 
fassend Inoden 2306A und 2306B. Die Inoden 2306A und 2306B referen- 
zieren Baume von Puffem, in denen mindestens ein Puffer jedes Baums 
modifiziert wurde. Zu Beginn werden Konsistenzpunkt-Flags 2391 und 
30 2392 der Inoden 2306A und 2306B gel5scht (0). Wahrend fur das vorlie- 
gende System eine Liste 2390 von Inoden mit unsauberen Puffem darge- 
stellt ist, sollte dem Fachmann ersichtlich sein, daB andere Listen von Ino- 
den ebenfalls im Speicher existieren konnen. Beispielsweise wird in dem 
Speicher eine Liste von Dioden gefuhrt, die unsauber sind, allerdings keine 
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unsauberen Puffer haben. Diese Inoden miissen als in dem Konsistenz- 
punkt befindlich markiert werden. Sie miissen auf die Platte geraumt wer- 
den, damit auch der unsaubere Inhalt der Inoden-Datei auf die Platte ge- 
schrieben wird, selbst wenn xinsaubere Inoden nicht unsaubere Blocke re- 
5 ferenzieren. Dies geschieht im Schritt 520 in Figur 5. 

Figur 17B ist ein Diagramm, welches ein WAFL-Dateisystem eines vor- 
hergehenden Konsistenzpunkts mit dem Fsinfo-Block 2302, der Inoden- 
Datei 2346, der blkmap-Datei 2344 sowie Dateien 2340 und 2342 umfaBt. 

10 Die Datei 2340 enthalt Blocke 2310-2314, die Daten ,3" bzw. „C" 
enthalten. Die Datei 2342 enthalt Datenblocke 2316-2320 mit Daten 
,3" bzw. ,JF". Die blkmap-Datei 2344 enthalt den Block 2324. Die Inoden- 
Datei 2346 enthalt zwei 4 KB-Bl6cke 2304 und 2306. Der zweite Block 
2306 enthalt Inoden 2306A-2306C, die die Datei 2340, die Datei 2342 

15 bzw. die blkmap-Datei 2344 referenzieren. Dies ist im Block 2306 durch 
Auflistimg der Dateinummer in der Diode angezeigt, Fsinfo-Block 2302 
enthalt die Wurzelinode. Die Wurzelinode referenziert die Blocke 2304 
und 2306 der Inoden-Datei 2346. Figur 17B veranschaulicht einen Baum 
von Puffem in einem Dateisystem mit Wurzelbildimg durch den Fsinfo- 

20 Block 2302, welcher die Wurzelinode beinhaltet. 

Figur 17C ist ein Diagramm welches zwei modifizierte Puffer fur die 
Blocke 2314 xmd 2322 im Speicher veranschaulicht. Das aktive Dateisy- 
stem wird so modifiziert, daB der die Daten „C" enthaltende Block 2314 

25 aus der Datei 2340 gel5scht wird, AuBerdem werden die im Block 2320 
gespeicherten Daten , J" zu , J^-Prime" modifiziert imd in einem Puffer fur 
den Plattenblock 2322 gespeichert. Es sollte gesehen werden, daB die in 
Puffem fiir Plattenblocke 2314 und 2322 enthaltene modifizierte Daten zu 
dieser Zeit rvar im Speicher existieren. Samtliche ubrigen Blocke in dem 

30 aktiven Dateisystem der Figur 17C sind nicht modifiziert und deshalb nicht 
mit einem Stemchen neben ihnen markiert. AUerdings konnen einige oder 
samtliche dieser Blocke in dem Speicher zugehorige saubere Puffer auf- 
weisen. 


34 


Figur 17D ist ein Diagramm, welches die Eintrage 2324A-2324M der 
blkmap-Datei 2344 im Speicher veranschaulicht. Eintrage 2324A-2324M 
sind in einem Puffer fur den 4-KB-Block 2324 der blkmap-Datei 2344 
enthalten. Wie zuvor beschrieben, sind das BITO und BIT3 1 das FS-BIT 
5 bzw. das CP-BIT. Das Konsistenzpunkt-Bit (CP-BIT) wird wahrend eines 
Konsistenzpunkts gesetzt, um zu garantieren, daB der entsprechende Block 
nach Beginn, jedoch noch nicht erfolgtem AbschluB eines Konsistenz- 
punkts modifiziert wird, BITl ist das erste SchnappschuB-Bit (wird unten 
beschrieben). BIkmap-Eintrage 2324A und 2324B veranschaulichen, daB 

10 gemaB Figur 17B die 4-KB-Bl6cke 2304 und 2306 der Inoden-Datei 2346 
in dem aktiven Dateisystem (FS-BIT gleicht 1) aind in dem Konsistenz- 
punkt (CP-BIT gleicht 1) sind. In ahnlicher Weise sind die ubrigen Blocke 
2310-2312 und 2316-2320 sowie 2324 in dem aktiven Dateisystem und in 
dem Konsistenzpimkt. Allerdings sind die Blocke 2308 und 2322 sowie 

15 2326-2328 weder in dem aktiven Dateisystem noch in dem Konsistenz- 
punkt (was durch BITO bzw. BIT3 1 angegeben wird). Der Eintrag fur den 
geloschten Block 2314 hat einen Wert 0 im FS-BIT, was anzeigt, daB er 
aus dem aktiven Dateisystem entfemt wurde. 

20 Im Schritt 510 der Figur 5 werden samtliche „unsauberen" Inoden in dem 
System als im Konsistenzpunkt befindlich markiert. Unsaubere Inoden 
enthalten sowohl Inoden, die unsauber sind, als auch Inoden, welche un- 
saubere Puffer referenzieren, Figur 171 veranschaulicht eine Liste von Ino- 
den mit xmsauberen PufFem, wo die Konsistenzpimkt-Flags 2391 und 2392 

25 von Inoden 2306A und 2306B gesetzt (1) sind. Die Inode 2306A referen- 
ziert den Block 2314, der Daten „C'* der Datei 2340 enthalt, die aus dem 
aktiven Dateisystem zu loschen ist Die Inode 2306B des Blocks 2306 der 
Inoden-Datei 2346 referenziert die Datei 2342. Der Block 2320, der die 
Daten „F" enthalt, wurde modifiziert, imd es muB ein neuer Block zuge- 

30 wiesen werden, der die Daten ,JF" enthalt. Im Schritt 510 werden die un- 
sauberen Inoden 2306A und 2306B in den Puffer fur den Block 2308 ein- 
kopiert. Der Puffer fur den Block 2306 wird anschliefiend (im Schritt 530) 
auf Platte geschrieben. Dies ist in Figur 17E dargestellt. Die modifizierten 
Daten existieren nur in dem Speicher, und der Puffer 2308 ist als unsauber 
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markiert. Die Inkonsistenzpunkt-FIags 2391 und 2392 der Inoden 2306A 
und 2306B werden anschlieflend geloscht (0), wie in Figur 17A dargestellt. 
Dies gibt die Inoden fur die Benutzung durch andere Prozesse frei. 

5 Infi Schritt 520 werden regulare Dateien auf Platte geraumt Damit wird 
dem Block 2322 Plattenspeicherplatz zugewiesen. Der Block 2314 der 
Datei 2340 ist zu loschen, so daC mit diesem Block nichts geschieht, bis 
spater dann der Konsistenzpunkt abgeschlossen ist. Der Block 2322 wird 
im Schritt 520 auf Platte geschrieben. Dies ist in Figur 17F dargestellt, wo 

10 Puffer fur die Blocke 2322 und 2314 auf Platte geschrieben wurden (mar- 
kiert durch ***). Die Zwischen-Zuordnung von Plattenspeicherraum (**) 
ist nicht dargestellt Die Inoden 2308A und 2308B des Blocks 2308 der 
Inoden-Datei 2346 werden anschlieflend in die Inoden-Datei geraumt. Die 
Inode 2308A des Blocks 2308 referenziert Blocke 2310 xmd 2312 der Da- 

15 tei 2346. Die Inode 2308B referenziert Blocke 2316, 2318, 2322 fiir die 
Datei 2342. Wie in Figur 17F gezeigt ist, wird Plattenspeicherplatz fur den 
Block 2308 der Inode 2346 und fur den direkten Block 2322 der Datei 
2342 zugewiesen. Allerdings ist das Dateisystem selbst noch nicht aktuali- 
siert worden. Damit bleibt das Dateisystem in einem konsistenten Zustand. 

20 

Im Schritt 530 wird die blkmap-Datei 2344 auf Platte geraumt. Dies ist in 
Figur 17G dargestellt, wo die blkmap-Datei 2344 durch ein Stemchen als 
unsauber gekennzeichnet ist. 

25 Im Schritt 610 der Figur 6 wird die Inode fiir die blkmap-Datei vorab in 
die Inoden-Datei geraxmat, wie in Figur 17H gezeigt. Die Inode 2308C 
wurde in den Block 230B der Inoden-Datei 2346 geraiunt. Allerdings refe- 
renziert die Inode 2308C immer noch den Block 2324. Im Schritt 620 wird 
Plattenspeicherraum fur die blkmap-Datei 2344 und die Inoden-Datei 2346 

30 zugewiesen. Der Block 2308 wird fur die Inoden-Datei 2346 zugewiesen, 
imd Block 2326 wird fiir die blkmap-Datei 2344 zugewiesen. Wie oben 
beschrieben, enthalt der Block 2308 der. Inoden-Datei 2346 eine vorab- 
geraumte Inode 2308C fiir die blkmap-Datei 2344. Im Schritt 630 wird die 
Inode fur die blkmap-Datei 2344 in den vorgeraumten Block 2308C in der 
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Inode 2346 geschrieben. Damit wird im Schritt 620 die interne Inode 
2308C zum Referenzieren des Blocks 2324 aktualisiert und wird in den 
Puffer des Speichers kopiert, der den in den Block 2308 zu schreibenden 
Block 2306 enthalt. Dies ist in Figur 17H dargestellt, wo die Inode 2308C 
5 den Block 2326 referenziert. 

Im Schritt 640 werden die Eintrage 2326A-2326L fiir jeden Block 2304- 
2326 in der blkmap-Datei 2344 in Figur 17J aktualisiert. Blocke, die sich 
nach dem Beginn des Konsistenzpunkts in Figur 17B nicht geandert haben, 

10 besitzen in ihren Eintragen dieselben Werte. Die Eintrage werden dadurch 
aktualisiert, daB BITO (das FS-Bit) in das Konsistenzpunkt-Bit (BIT31) 
kopiert wird. Der Block 2306 ist nicht Teil des aktiven Dateisystems, und 
deshalb ist BITO gleich Null (BITO wurde im Schritt 620 ausgeschaltet, als 
der Block 2308 zugewiesen wurde, um neue Daten fur diesen Teil der Ino- 

15 den-Datei aufeunehmen). Dies ist in Figur 17J fiir den Eintrag 2326B dar- 
gestellt. In ahnlicher Weise ist im Eintrag 2326F fur den Block 2314 der 
Datei 2340 das BITO und das BIT31 gleich Null. Block 2320 der Datei 
2342 und Block 2324 der blkmap-Datei 2344 werden in ahnlicher Weise 
gehandhabt, wie dies fur die Eintrage 2361 bzw. 2326K gezeigt ist. Im 

20 Schritt 650 werden der unsaubere Block 2308 der Inoden-Datei 2346 xmd 
der vinsaubere Block 2326 der blkmap-Datei 2344 auf Platte geschrieben. 
Dies ist in Figur 17K durch ein dreifaches Stemchen (***) neben den 
Blocken 2308 und 2326 angegeben. 

25 Bezugnehmend auf Figur 5 wird im Schritt 540 der Dateisysteminformati- 
onsblock 2302 auf Platte geraxunt, und dies geschieht zweimal. Damit ist 
der Fsinfo-Block 2302 unsauber geworden und wird anschlieBend auf Plat- 
te geschrieben (in Figur 17L durch ein Dreifachstemchen angedeutet). In 
Figur 17L ist ein einzelner Fsinfo-Block 2302 dargestellt. Wie aus dem 

30 Diagramm ersichtlich ist, referenziert der Fsinfo-Block 2302 jetzt den 
Block 2304 und den Block 2308 der Inoden-Datei 2346. In Figur 17L ist 
der Block 2306 nicht mehr Bestandteil der Inoden-Datei 2346 des aktiven 
Dateisystems. In ahnlicher Weise enthalt die durch die Inode 2308A der 
Inoden-Datei 2346 referenzierte Datei 2340 Blocke 2310 und 2312. Der 
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Block 2314 ist nicht mehr Bestandteil der Datei 2340 innerhalb dieses 
Konsistenzpunkts. Die Datei 2342 enthalt Blocke 2316, 2318 und 2322 in 
dem neuen Konsisten2punkt, wahrend Block 2320 nicht Bestandteil der 
Datei 2342 ist. Weiterhin referenziert der Block 2308 der Inoden-Datei 
5 2346 eine neue blkmap-Datei 2344 mit dem Block 2326. 

Wie in Figur 17L gezeigt ist, wird in einem Konsistenzpunkt das aktive 
Dateisystem dadurch aktualisiert, daB die Inode der Inoden-Datei 2346 in 
den Fsinfo-Block 2302 einkopiert wird. AUerdings verbleiben die Blocke 
10 2314, 2320, 2324 und 2306 des vorhergehenden Konsistenzpunkts auf der 
Platte. Diese Bl5cke werden beim Aktualisieren des Dateisystems niemals 
uberschrieben, um zu garantieren, daB sowohl der alte Konsistenzpunkt 
1830 als auch der neue Konsistenzpunkt 1831 auf der Platte vorhanden 
sind, siehe Figur 20 und Scbritt 540. 

15 

Sclinappschusse 

Das WAFL-System arbeitet mit Schnappschussen. Ein SchnappschuB oder 
eine Momentaufiiahme ist eine nur lesbare Kopie eines gesamten Dateisy- 

20 stems zu einem gegebenen AugenbUck, zu welchem der SchnappschuB 
erzeugt wird. Ein neu erzeugter SchnappschuB bezieht sich auf exakt die- 
selben Plattenblocke, wie dies das aktive Dateisystem tut. Deshalb wird er 
innerhalb einer kurzen Zeitspanne erzeugt und verbraucht keinen zusStzli- 
chen Plattenspeicherplatz. Nur wenn Datenblocke innerhalb des aktiven 

25 Dateisystems modifiziert und in neue Stellen auf der Platte geschrieben 
werden, beginnt der SchnappschuB, besonderen Platz zu beanspruchen. 

WAFL halt bis zu 20 imterschiedliche Schnappschiisse, die von 1 bis 20 
numeriert sind. Damit erm6glicht WAFL die Erzeugung mehrfacher „Klo- 
30 ne" desselben Dateisystems. Jeder SchnappschuB wird durch eine 
SchnappschuB-Inode reprasentiert, die ahnlich der Darstellung des aktiven 
Dateisystems durch eine WurzeUnode ist. Schnappschusse werden erzeugt 
durch Duplizieren der Wurzeldatenstruktur des Dateisystems. In der be- 
voizugten Ausfiihrungsfonn ist die Wurzeldatenstruktur die WurzeUnode. 
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Allerdings konnte auch jede andere Datenstruktur venvendet werden, die 
reprasentativ fur ein gesamtes Dateisystem ist. Die SchnappschuB-Inoden 
befinden sich an einer fasten Stelle innerhalb der Inoden-Datei. Die Be- 
grenzung auf 20 Schnappschusse wird durch die GroBe der Blockabbild- 
Eintrage bestimmt. WAFL erfordert zwei Schritte zum Erzeugen eines 
neuen Schnappschiisses N: Kopieren der Wurzelanode in die Anode fur 
den SchnappschuC N und Kopieren des Bits 0 in das Bit N jedes Blockab- 
bild-Eintrags innerhalb der blkmap-Datei. BitO gibt die Blocke an, die von 
dem Baum unterhalb der Wurzelinode referenziert werden. 

Das Ergebnis ist ein neuer Dateisystembaum, dessen Wurzel gebildet wird 
durch die SchnappschuB-Inode N, die exakt dieselben Plattenblocke refe- 
renziert wie die Wurzelinode. Durch Einstellen eines entsprechenden Bits 
in der Blockabbildung fiir jeden Block in dem SchnappschuB wird verhin- 
dert, daB SchnappschuB-Blocke freigesetzt werden, selbst wenn die aktive 
Datei die SchnappschuB-Blocke nicht mehr verwendet. Da WAFL stets 
neue Daten auf unbenutzte Speicherplatze schreibt, andert sich der 
SchnappschuB-Baum selbst dann nicht, wenn das aktive Dateisystem sich 
andert. Da ein neu erzeugter SchnappschuB-Baum exakt die gleichen 
Blocke wie die Wurzelinode referenziert, verbraucht er keinen zusatzli- 
chen Plattenspeicherplatz. Im Lauf der Zeit referenziert der SchnappschuB 
Plattenblocke, die ansonsten freigesetzt wurden. Damit benutzen im Ver- 
lauf der Zeit der SchnappschuB imd das aktive Dateisystem immer weniger 
Blocke, so daB der von dem SchnappschuB beanspruchte Raum zunimmt. 
Schnappschusse konnen geloscht werden, wenn sie eine nicht mehr akzep- 
tierbare Anzahl von Plattenblocken belegen. 

Die Liste aktiver Schnappschusse wird zusammen mit den Namen der 
Schnappschusse in einer SchnappschuB- Verzeichnis genannten Metadaten- 
Datei abgespeichert, Der Plattenzustand wird in der oben beschriebenen 
Weise aktualisiert Wie bei samtlichen anderen Andenmgen erfolgt die 
Aktualisierung durch automatisches Weiterschreiten von einem Konsi- 
stenzpunkt zum anderen. Modifizierte Blocke werden in unbenutzte Platze 
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auf der Platte geschrieben, woraufhin eine neue Wurzelinode, welche das 
aktualisierte Dateisystem beschreibt, geschrieben wird. 

Uberblick uber Schnappschusse 

Figur 18A ist ein Diagramm des Dateisystems 1830, bevor ein Schnapp- 
schuB aufgenommen wird, wobei Umwege-Ebenen entfemt wurden, uin 
einen einfacheren Uberblick iiber das WAFL-Dateisystem zu emoglichen. 
Das Dateisystem 1830 reprasentiert das in Figur 16 gezeigte Dateisystem 
1690. Das Dateisystem 1830 besteht aus BlScken 1812 bis 1820. Die Inode 
der Inoden-Datei ist in dem Fsinfo-Block 1810 enthalten. Wahrend eine 
einzelne Kopie des Fsinfo-Blocks 1810 in Figur 18A dargestellt ist, ver- 
steht sich naturlich, daB auf der Platte eine zweite Kopie des Fsinfo-Blocks 
vorhanden ist. Die in dem Fsinfo-Block 1810 enthaltene Inode 1810A ent- 
halt 16 Zeiger, die auf 16 Blocke mit gleicher Umwegeebene zeigen. Die 
Blocke 1810-1820 in Figur 18A reprasentieren samtliche Blocke innerhalb 
des Dateisystems 1830 einschlieBlich direkte Blocke, indirekte Blocke, etc. 
Obschon lediglich funf Blocke 1812-1820 dargestellt sind, kann jeder 
Block auf weitere Blocke verweisen. 

Figur 18B ist ein Diagramm, das die Erzeugung eines Schnappschusses 
zeigen. Der SchnappschuB wird fur das gesamte Dateisystem 1830 dadurch 
erstellt, daB einfach die Inode 1810A der Inoden-Datei kopiert wird, die in 
dem Fsinfo-Block 1810 gespeichert ist, wobei die Inode in die Schnapp- 
schuB-Inode 1822 einkopiert wird. Durch Einkopieren der Inode 1810A 
der Inoden-Datei wird eine neue Datei von Dioden erzeugt, die das gleiche 
Dateisystem wie das aktive Dateisystem reprasentiert, weil die Inode 
1810A der Inoden-Datei selbst kopiert wird. Es brauchen keine weiteren 
Bl6cke 1812-1820 dupliziert zu werden. Die kopierte Inode oder Schnapp- 
schuB-Inode 1822 wird dann in die Inoden-Datei einkopiert, was einen 
Block innerhalb der Inoden-Datei unsauber macht. Fur eine Inoden-Datei 
aus einer oder mehreren Umwegeebenen wird jeder indirekte Block wie- 
derum unsauber gemacht. Dieser Vorgang des Verunreinigens von Blok- 
ken schreitet durch samtliche Umwegeebenen. Jeder 4-KB-Block inner- 
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halb der Inoden-Datei auf der Platte enthalt 32 Inoden, wo jede Inode 128 
Bytes Lange aufweist. 

Die neue SchnappschuB-Inode 1822 nach Figur 18B venveist zuriick auf 
5 die Blocke 1812-1820 hochster Umwegeebene, referenziert durch die Ino- 
de 1810A der Inoden-Datei, wenn der SchnappschuB 1822 aufgenommen 
wird. Die Inoden-Datei selbst ist eine rekursive Stniktur, weil sic Schnapp- 
schusse des Dateisystems 1830 beinhaltet. Jeder SchnappschuB 1822 ist 
eine Kopie der Inode 1810A der Inoden-Datei, welche in die Inoden-Datei 
10 einkopiert wird. 

Figur 18C ist ein Diagramm, das das aktive Dateisystem 1830 und den 
SchnappschuB 1822 fur den Zeitpxinkt veranschaulicht, zu dem eine Ande- 
rung des aktiven Dateisystems 1830 nach Aufhahme des Schnappschusses 
15 1822 stattfindet. Wie in dem Diagramm gezeigt, wird der Block 1818 mit 
den Daten nach Aufiiahme des Schnappschusses (Figur 18B) modifi- 

ziert, imd deshalb wird ein neuer Block 1 824 mit Daten ^Dp^nie" fiir das 

aktive Dateisystem 1830 zugeordnet. Damit enthalt das aktive Dateisystem 
1830 Blocke 1812-1816 und 1820-1824, es enthalt aber nicht den Block 

20 1818 mit den Daten ,JD". AUerdings wird der die Daten ,JD" enthaltende 
Block 1818 deshalb nicht uberschrieben, weil das WAFL-System keine 
Blocke auf der Platte uberschreibt Der Block 1818 wird gegen ein Uber- 
schreiben von einem SchnappschuB-Bit geschutzt, welches in dem Block- 
abbild-Eintrag fiir den Block 1818 gesetzt wird. Deshalb zeigt der 

25 SchnappschuB 1822 immer noch auf den unmodifizierten Block 1818 
ebenso wie auf die Blocke 1812-1816 xmd 1820. Die vorliegende Erfin- 
dung unterscheidet sich gemaB den Figuren 18A-18C von bekannten Sy- 
stemen, die ,4^one" eines Dateisystems erzeugen, wobei ein Klon eine 
Kopie samtlicher Blocke einer Diodendatei auf einer Platte ist. Damit 

30 werden die gesamten Inhalte der herkonmilichen Inoden-Dateien dupli- 
ziert, was groBe Mengen (MB) an Plattenspeicherplatz ebenso erfordert 
wie betrachtliche Zeit fur Platten-E/A-Operationen. 
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Wenn das aktive Dateisystem 1830 in Figur 18C modifiziert wird, benotigt 
es deshalb mehr Plattenspeicherraum, weil das Dateisystem mit den Blok- 
ken 1812-1820 nicht uberschrieben wird. In Figur 18C ist der Block 1818 
als ein direkter Block dargestellt. Bei einem wirklichen Dateisystem aller- 
5 dings kann der Block 1818 auch durch einen indirekten Block mittels Zei- 
ger angesprochen werden. Wenn also der Block 1818 modifiziert und an 
einen neuer Stelle der Platte als Block 124 abgespeichert wird, werden 
auch die entsprechenden direkten und indirekten Blocke kopiert und dem 
aktiven Dateisystem 1830 zugeordnet. 

10 

Figur 19 ist ein Diagranun, welches die Anderungen veranschaulicht, die 
im Block 1824 gemaB Figur 18C auftreten. Der Block 1824 nach Figur 
18C ist in der gestrichelten Linie 1824 in Figur 19 dargestellt- Figur 19 
veranschaulicht verschiedene Umwegeebenen fur den Block 1824 nach 

15 Figur 18C. Der neue Block 1910, welcher gemaB Figur 18C auf die Platte 
geschrieben wird, ist in Figur 19 mit 1910 bezeichnet. Weil der Block 
1824 einen Datenblock 1910 enthalt, welcher modifizierte Daten beinhal- 
tet, die durch einen doppelten Umweg oder doppelten Verweis referenziert 
werden, werden auch zwei weitere B16cke 1918 und 1926 modifiziert. Der 

20 Zeiger 1924 eines einfach-indirekten Blocks 1918 referenziert einen neuen 
Block 1910, und deshalb muB der Block 1918 an eine neue Stelle der Plat- 
te geschrieben werden. In ahnlicher Weise wird der Zeiger 1928 des indi- 
rekten Blocks 1926 modifiziert, da er auf den Block 1918 zeigt. Deshalb 
kann gemaB Figur 19 das Modifizieren eines Datenblocks 1910 zur Folge 

25 haben, daB mehrere indirekte Blocke 1918 und 1926 ebenfalls modifiziert 
werden. Dies macht es erforderlich, auch die B15cke 1918 und 1926 auf 
eine neue Stelle der Platte zu schreiben. 

Da die direkten und indirekten Blocke 1910. 1918 und 1926 des Daten- 
30 blocks 1824 in Figur 18C geandert xmd an eine neue Stelle geschrieben 
wurden, wird die Inode in der Inoden-Datei in einen neuen Block ge- 
schrieben. Der modifizierte Block der Inoden-Datei erhalt einen neuen 
Block auf der Platte, da Daten nicht uberschrieben werden konnen. 
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Wie in Figur 19 gezeigt ist, wird auf den Block 1910 durch indirekte Blok- 
ke 1926 bzw. 1918 gezeigt. Wenn also der Block 1910 modifiziert und an 
einer neuen Stelle der Platte gespeichert wird, werden auch die entspre- 
chenden direkten und indirekten Blocke kopiert und dem aktiven Dateisy- 
5 stem zugeordnet. Damit muC eine Reihe von Datenstrukturen aktualisiert 
werden. Das Andem des direkten Blocks 191D und der indirekten Blocke 
1918 und 1926 veranlaBt, daB die blkmap-Datei modifiziert werden muB. 

Die Schlusseldatenstrukturen fur Schnappschusse sind die Blockabbild- 
10 Eintrage, wo jeder Eintrag mehrere Bits fur einen Schnappschufi aufweist. 
Dies ermoglicht es, daB mehrere Schnappschusse erzeugt werden. Ein 
SchnappschuB ist ein Bild eines Baxmis von Blocken, die das Dateisystem 
(1830 in Figur 18) bilden. Solange keine neuen Daten auf Blocke des 
Schnappschusses geschrieben werden, wird das durch den SchnappschuB 
15 reprasentierte Dateisystem nicht geandert. Ein SchnappschuB ist einem 
Konsistenzpunkt ahnlich. 

Das erfindungsgemaBe Dateisystem ist voUstandig konsistent nach dem 
letzten Mai des Schreibens der Fsinfo-BIocke 1810 imd 1870. Wenn daher 
20 das System einen Netzausfall erleidet, entsteht beim Neustart das Dateisy- 
stem 1830 in konsistentem Zustand. Da 8-32 MB Plattenspeicherraum bei 
einem typischen bekannten ,JKJon" eines 1-GB-Dateisystems verwendet 
werden, fuhren KJone nicht zu Konsistenzpunkten oder Schnappschussen 
wie die vorliegende Erfindung. 

25 

Bezugnehmend auf Figur 22 existieren zwei friihere Schnappschusse 
2110A und 2110B auf der Platte. Zu dem Zeitpunkt, zu dem ein dritter 
Schnappschufi entsteht, wird die auf das aktive Dateisystem zeigende 
Wurzelinode in den Inodeneintrag 2 HOC fur den dritten SchnappschuB in 
30 der Inoden-Datei 2110 kopiert. Gleichzeitig zeigt in dem durchgehenden 
Konsistenzpunkt ein Flag an, daB der SchnappschuB 3 erzeugt wird. Das 
gesamte Dateisystem wird verarbeitet, indem geprufl wird, ob BITO fur 
jeden Eintrag innerhalb der blkmap-Datei gesetzt (1) oder geloscht (0) ist. 
Samtliche BITO-Werte fur jeden Blockabbild-Eintrag werden in die Ebene 
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fur den SchnappschuB 3 kopiert. Nach Beendigung ist jeder aktive Block 
2110-2116 und 1207 in dem Dateisystem zu diesem Zeitpiinkt in dem 
SchnappschuB aufgenonunen. 

5 Blocke, die durchgangig fur eine gegebene Zeitspanne auf der Platte exi- 
stiert haben, befinden sich ebenfalls in den entsprechenden Schnappschiis- 
sen 2110A-2110B, die dem dritten SchnappschuB 21 IOC vorausgehen. 
Wenn ein Block in dem Dateisystem fur eine ausreichend lange Zeitspanne 
verblieben ist, ist er in samtlichen Schnappschussen enthalten. Der Block 

10 1207 ist ein derartiger Block. Wie in Figur 22 gezeigt ist, wird der Block 
1207 durch die Inode 2210G der aktiven Inoden-Datei referenziert, auBer- 
dem indirekt durch die Schnappschusse 1, 2 und 3. 

Die sequentielle Reihenfolge von Schnappschussen reprasentiert nicht un- 
15 bedingt eine chronologische Reihenfolge von Dateisystem-Kopien. Jeder 
einzelne SchnappschuB in einem Dateisystem kann zu jeder gegebenen 
Zeit geloscht werden, um dadurch einen Eintrag fur nachfolgenden Ge- 
brauch verfugbar zu machen. Wenn BITO eines blkmap-Eintrags, der das 
aktive Dateisystem referenziert, geloscht wird (v^as bedeutet, daB der 
20 Block aus dem aktiven Dateisystem geloscht wurde), so kann der Block 
nicht noch einmal benutzt werden, wenn irgendeines der SchnappschuB- 
Referenzbits gesetzt wird. Dies deshalb, weil der Block Teil eines 
Schnappschusses ist, der noch in Gebrauch ist. Ein Block kann nur neu 
verwendet werden, wenn samtliche Bits in dem blkmap-Eintrag auf Null 
25 gesetzt sind. 

Algorithmus zum Erzeugen eines Schnapp schusses 

Das Erzeugen eines Schnappschusses entspricht etwa exakt der Erzeugung 
30 eines regularen Konsistenzpunkts gemaB Figur 5. Im Schritt 510 werden 
samtliche xmsauberen Inoden als m dem Konsistenzpunkt befindlich mar- 
kiert. Im Schritt 520 werden regulare Dateien auf die Platte gerSumt. Im 
Schritt 520 werden Spezialdateien (das heiBt die Inoden-Datei und die 
blkmap-Datei) auf Platte geraumt, Im Schritt 540 werden Fsinfo-Blocke 
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auf Platte geraumt. Im Schritt 550 werden samtliche Inoden, die sich nicht 
im Konsistenzpunkt befanden, verarbeitet. Figur 5 wird oben im einzelnen 
beschrieben. Tatsachlich erfolgt das Erzeugen eines Schnappschusses als 
Teil der Erzeugung eines Konsistenzpunkts. Der Hauptunterschied zwi- 
schen der Erzeugung eines Schnappschusses und der eines Konsistenz- 
punkts besteht darin, daB samtliche Eintrage der blkmap-Datei das aktive 
FS-Bit in das SchnappschuB-Bit einkopiert haben. Das Schnappschufi-Bit 
reprasentiert den entsprechenden Schnappschufi, um die Blocke in dem 
SchnappschuB gegen LFberschreiben zu schutzen. Das Erzeugen und das 
Loschen von Schnappschussen erfolgt im Schritt 530, da dies der einzige 
Ptmkt ist, an dem das Dateisystem voUstandig selbst konsistent ist xmd auf 
dem Wege zur Platte ist 

Im Schritt 530 werden unterschiedliche Schritte durchgefuhrt, die dann in 
Figur 6 dargestellt sind, und zwar fur einen Konsistenzpunkt, wenn ein 
neuer SchnappschuB erzeugt wird. Die Schritte sind sehr ahnlich jenen fur 
einen regularen Konsistenzpunkt. Figur 7 ist ein FluBdiagramm, welches 
die Schritte zeigt, welche der Schritt 530 zum Erzeugen eines Schnapp- 
schusses umfaBt. Wie oben beschrieben, weist der Schritt 530 Plattenspei- 
cherplatz fur die blkmap-Datei imd die Inoden-Datei zu und kopiert das 
aktive FS-Bit in das SchnappschuB-Bit, welches den entsprechenden 
SchnappschuB reprasentiert, um die Blocke in dem SchnappschuB gegen 
Uberschreiben zu schutzen. 

Im Schritt 710 werden die Inoden der blkmap-Datei xmd des Schnapp- 
schusses auf Platte vorgeraumt. Zusatzlich zu dem Raiunen der Inode und 
der blkmap-Datei in einen Block der Inoden-Datei (wie im Schritt 610 der 
Figur 6 fur einen Konsistenzpunkt), wird die Inode des erzeugten Schnapp- 
schusses auch in einen Block der Inoden-Datei geraumt. Dies garantiert, 
daB der Block in der Inoden-Datei, der die Inode des Schnappschusses 
enthalt, unsauber ist. 

Im Schritt 720 wird jeder Block in der blkmap-Datei unsauber gemacht. Im 
Schritt 760 (imten beschrieben) werden samtliche Eintrage in der blkmap- 
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Datei aktualisiert, und nicht nxir die Eintrage in unsauberen Blocken. Somit 
mussen samtliche Blocke der blkmap-Datei hier als unsauber markiert 
werden, xim zu garantieren, daB der Schritt 730 fur sie Plattenspeicherplatz 
zxam Schreiben zuweist. 

5 

Im Schritt 730 wird fur samtliche unsauberen Blocke in der Inode und in 
blkmap-Dateien Plattenspeicherplatz zugewiesen. Die unsauberen Blocke 
enthalten den Block in der Inoden-Datei, welche die Inode der blkmap- 
Datei, die unsauber ist, enthalt, auBerdem den Block, der die Inode fiir den 
10 neuen Schnappschufi enthalt. 

Im Schritt 740 warden die Inhalte der Wurzelinode fur das Dateisystem in 
die Inode des Schnappschusses innerhalb der Inoden-Datei kopiert. Zu 
dieser Zeit wird jedem Block, der Teil des neuen Konsistenzpimkts ist und 
15 der auf Platte geschrieben wird, Plattenspeicherplatz zugeordnet. Damit 
kopiert ein Duplizieren der Wurzelinode in die SchnappschuB-Inode in 
wirksamer Weise das gesamte aktive Dateisystem, Die aktuellen Blocke, 
die in dem SchnappschuB enthalten sind, sind die gleichen Blocke des ak- 
tiven Dateisystems. 

20 

Im Schritt 750 warden die Inoden der blkmap-Datei xmd der SchnappschuB 
in die Inoden-Datei kopiert. 

Im Schritt 760 werden Eintrage in der blkmap-Datei akttialisiert. Zusatz- 
25 lich zu dem Kopieren des aktiven FS-Bits in das CP-Bit fur die Eintrage 
wird das aktive FS-Bit auch in das dem neuen SchnappschuB entsprechen- 
de SchnappschuB-Bit kopiert. 

Im Schritt 770 werden samtliche unsauberen Blocke in den blkmap- und 
30 Inoden-Dateien auf Platte geschrieben. 

SchlieBlich werden zu einer gewissen Zeit Schnappschusse selbst aus dem 
Dateisystem entfemt, Schritt 760. Ein SchnappschuB wird dadurch aus 
dem Dateisystem entfemt, daB sein SchnappschuB-Inodeneintrag innerhalb 
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der Inoden-Datei des aktiven Dateisystems gel<3scht und jedes Bit, das der 
SchnappschuBnummer in jedem Eintrag innerhalb der blkmap-Datei ent- 
spricht, geloscht wird. Es erfolgt eine Zahliing auch fur jedes Bit des 
Schnappschusses in samtlichen blkmap-Eintragen, die aus einem einge- 

5 stellten Wert geloscht werden, um dadurch eine Zahlung der durch L6- 
schen des Schnappschusses freigesetzten Blocke zu schaffen (entsprechend 
der freigesetzten Menge an Plattenspeicherplatz). Das System entscheidet 
anhand des altesten Schnappschusses, welcher SchnappschuB geloscht 
werden soli. Auch Benutzer konnen von Hand spezifizierte Schnappschiis- 

10 se loschen. 

Die vorliegende Erfindung begrenzt die Gesamtanzahl von Schnappschus- 
sen imd fxihrt eine blkmap-Datei, die Eintrage mit Mehrfach-Bits zum Ver- 
folgen der Schnappschusse anstelle der Verwendung von Zeigem mit ei- 

15 nem COW-Bit, wie dies in Episode der Fall ist, aufweist. Ein nicht ver- 
wendeter Block enthalt fur samtliche Bits in seinem blkmap-Datei-Eintrag 
nur Nullen. Ini Verlauf der Zeit wird das BITO fiir das aktive Dateisystem 
liblicherweise zu einem gegebenen Zeitpunkt eingeschaltet. Das Setzen 
des BITO identifiziert den entsprechenden Block als in dem aktiven Datei- 

20 system zugeordnet. Wie oben angegeben, werden samtliche Schnapp- 
schuB-Bits zu Beginn auf Null gesetzt. Wenn das aktive Dateibit vor Set- 
zen irgendeines SchnappschuB-Bits geloscht ist, ist der Block in keinem 
auf Platte gespeicherten SchnappschuB vorhanden. Deshalb steht der 
Block sofort zur Neuzuweisxmg zur Verfugimg und kann spater aus einem 

25 SchnappschuB nicht wiedergewonnen werden, 

Erzeugung eines Schnappschusses 

Wie oben beschrieben, ist ein SchnappschuB einem Konsistenzpunkt sehr 
30 ahnlich. Deshalb soil die Erzeugung eines Schnappschusses unter Bezug- 
nahme auf die Unterschiede zwischen ihr und der Erzeugung eines Konsi- 
stenzpunkts gemaB Figuren 17A-17L erlautert werden. Figuren 21A-21F 
zeigen die Unterschiede bei der Erzeugung eines Schnappschusses. 
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Figuren 17A-17D zeigen den Zustand des WAFL-Dateisystems, wenn ein 
Schnappschufi begonnen wird. Samtliche unsauberen Inoden werden als in 
dem Konsistenzpunkt befmdlich markiert, Schritt 510, und im Schritt 520 
werden die regularen Dateien auf Platte geraumt. Damit ist die Anfangs- 
5 verarbeitimg fur einen SchnappschuB identisch mit der eines Konsistenz- 
punkts. Die Verarbeitung fur einen SchnappschuB unterscheidet sich im 
Schritt 530 von der des Konsistenzpunkts. hn folgenden wird die Verarbei- 
tung eines Schnappschusses gemaB Figur 7 erlautert. 

10 Die folgende Beschreibung gih fiir einen zweiten SchnappschuB des 
WAFL-Dateisy stems. Ein erster SchnappschuB ist in den blkmap- 
Eintragen der Figur 17C aufgezeichnet. Wie in den Eintragen 2324 A- 
2324M, den Blocken 2304-2306, 2310-2320 und 2324 dargestellt, sind 
diese in dem ersten SchnappschuB enthalten. Samtliche anderen Schnapp- 

15 schxiB-Bits (BIT1-BIT20) haben angenommener Weise den Wert 0, was 
anzeigt, daB ein entsprechender SchnappschxiB auf der Platte nicht vorliegt. 
Figur 21 A zeigt das Dateisystem nach AbschlxiB der Schritte 510 und 520. 

Im Schritt 710 werden Inoden 2308C und 2308D des Schnappschusses 2 
20 und der blkmap-Datei 2344 auf Platte geraumt. Dies stellt sicher, daB der 
Block der Inoden-Datei, der die SchnappschuB-2-Inode enthalten wird, 
unsauber ist. In Figur 21B werden hioden 2308C und 2308D fur den 
SchnappschuB 2 und ftir die blkmap-Datei 2344 vorgeraumt 

25 Im Schritt 720 ist die gesamte blkmap-Datei 2344 unsauber gemacht Dies 
veranlaBt die gesamte blkmap-Datei 2344, im Schritt 730 Plattenraum zu- 
gewiesen zu bekommen. Im Schritt 730 wird Plattenraum fur unsaubere 
Blocke 2308 und 2326 ftir die Inoden-Datei 2346 und die blkmap-Datei 
2344 gemaB Figur 21 C zugewiesen. Angedeutet ist dies durch ein Drei- 

30 fachstemchen (***) neben den Blocken 2308 und 2326. Dies unterscheidet 
sich von der Erzeugung eines Konsistenzpunkts, bei dem Plattenspeicher- 
platz nur fur Blocke zugewiesen ist, deren Eintrage sich im Schritt 620 der 
Figur 6 innerhalb der blkmap-Datei 2344 geandert haben. Die blkmap- 
Datei 2344 nach Figur 21C enthalt einen einzelnen Block 2324. Wenn al- 
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lerdings die blkmap-Datei 2344 mehr als einen Block umfaflt, so wird im 
Schritt 730 Plattenspeicherplatz fur samtliche Blocke zugewiesen. 

Im Schritt 740 wird die Wurzelinode fur das neue Dateisystem in die Inode 
2308D fur SchnappschuC 2 kopiert. Im Schritt 750 werden die Inoden 
2308C und 2308D der blkmap-Datei 2344 und der Schnappschxifi 2 aiif 
Platte geraimit, wie in Figur 2 ID gezeigt ist. Das Diagramm veranschau- 
licht, daB die SchnappschuB-2-Inode 2308D Blocke 2304 xmd 2308, nicht 
aber Block 2306 referenziert. 

Im Schritt 760 werden Eintrage 2326A-2326L im Block 2326 der blkmap- 
Datei 2344 gemaB Figur 2 IE aktualisiert. Das Diagramm zeigt, daB das 
SchnappschuB-2-Bit (BIT2) ebenso wie das FS-BIT und das CP-BIT fur 
jeden Eintrag 2326A-2326L aktualisiert wird. Damit sind die Blocke 2304, 
2308-2312, 2316-2318, 2322 und 2326 im SchnappschuB 2 enthalten, die 
Blocke 2306, 23 14, 2320 und 2324 jedoch nicht. Im Schritt 770 werden die 
imsauberen Blocke 2308 imd 2326 auf Platte geschrieben. 

Die weitere Verarbeitimg des Schnappschusses 2 ist identisch mit der Er- 
zeugung eines Konsistenzpimkts, wie dies in Figur 5 gezeigt ist Im Schritt 
540 werden zwei Fsinfo-Blocke auf Platte geravunt. Figur 2 IF reprasentiert 
das WAFL-Dateisystem in einem konsistenten Zustand anschlieBend an 
diesen Schritt. Die Dateien 2340, 2342, 2344 xmd 2346 des konsistenten 
Dateisystems nach AbschluB des Schritts 540 sind durch gestrichelte Lini- 
en in Figur 21F angegeben. Im Schritt 550 wird der Konsistenzpxmkt durch 
Verarbeitung der Inoden, die nicht in dem Konsistenzpxmkt waren, abge- 
schlossen. 

Zugriffszeit-Uberschreibimgen 

Unix-Dateisysteme mussen in jeder Inode eine „Zugriffszeit" (atime von 
access time) enthalten. Atime gibt den letzten Zeitpunkt des Lesens der 
Datei an. Er wird jedesmal aktualisiert, wenn ein Zugriff auf die Datei er- 
folgt. Wenn also eine Datei gelesen wird, wird der Block, der die Inode in 
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der Inoden-Datei enthalt, neu geschrieben, urn die Inode zu aktualisieren. 
Dies konnte von Nachteil fur die Erzeugung von Schnappschussen deshalb 
sein, weil als Konsequenz das Lesen einer Datei moglicherweise Speicher- 
platz auf der Platte benotigt. AuCerdem konnte das Lesen samtlicher Da- 
teien innerhalb des Dateisystems zur Folge haben, daB die gesamte Inoden- 
Datei dupliziert wird. Die vorliegende Erfindung lost dieses Problem. 

Wegen des Vorhandenseins von Atime kSnnte ein Lesevorgang mogli- 
cherweise Plattenspeicherplatz verbrauchen, da ein Modifizieren einer 
Inode zur Folge hat. daB ein neuer Block fur die Inoden-Datei auf die Plat- 
te geschrieben wird. AuBerdem konnte ein Lesevorgang moglicherweise 
fehlschlagen, wenn ein Dateisystem voU ist, demzufolge ein abnormaler 
Zustand des Dateisystems auftritt. 

Im allgemeinen werden Daten auf einer Platte in dem WAFL-Dateisystem 
nicht iiberschrieben, um auf der Platte gespeicherte Daten zu schutzen. Die 
einzige Ausnahme dieser Regal besteht darin, dafi Atime fiir eine Inode 
uberschreibt, wie dies in den Figuren 23A-23B gezeigt ist. Wenn ein 
,Atime-t)berschreiben" stattfindet, bestehen die einzigen in einem Block 
der Inoden-Datei modifizierten Daten in Atime fur eine oder mehrere der 
Inoden, die sie enthalt, und der Block wird an derselben Stelle neu ge- 
schrieben. Dies ist die einzige Ausnahme innerhalb des WAFL-Systems. 
Im ubrigen werden neue Daten stets auf neue Plattenspeicherplatze ge- 
schrieben. 

In Figur 23A sind die Atimes 2423 und 2433 einer Inode 2422 In einem 
alten WAFL-Inoden-Datei-Block 2420 und die SchnappschuBinode 2432, 
die den Block 2420 referenziert, dargestellt. Die Inode 2422 des Blocks 
2420 referenziert direkt den Block 2410. Atime 2423 der Inode 2422 ist 
,,4/30 9:15 PM", wahrend Atime 2433 der SchnappschuB-Inode 2432 „5/l 
10:00 AM" ist. Figur 23 A veranschaulicht das Dateisystem vor einem 
Zugriff auf den direkten Puffer 2410. 
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Figur 23B veranschaulicht die Inode 2422 des direkten Blocks 2410, nach- 
dem auf den direkten Block 2410 zugegriffen wurde. Wie in dem Dia- 
gramm dargestellt, wird die Zugriffszeit 2423 der Inode 2422 mit der 
Zugriffszeit 2433 des Schnappschusses 2432, den sie referenziert, uber- 
5 schrieben. Damit wird die Zugriffszeit 2423 der Inode 2422 fiir den direk- 
ten Block 2410 „5/l 1 1 :23 AM". 

Das Zulassen des Uberschreibens von Inoden-Dateii-Blocken mit neuen 
Zugriffszeiten (Atime) fuhrt zu einer leichten Inkonsistenz innerhalb des 

10 Schnappschusses. Die Atime fiir eine Datei in einem SchnappschuB kann 
tatsachlich spater liegen als der Zeitpunkt, zu dem der SchnappschuB er- 
zeugt wurde. Um Benutzer an einem Feststellen dieser Inkonsistenz zu 
hindem, justiert WAFL den Wert Atime fur samtliche Dateien innerhalb 
eines Schnappschusses auf diejenige Zeit ein, zu der der SchnappschuB 

15 tatsachlich erzeugt wurde, und nicht auf die Zeit, zu der auf die Datei zu- 
letzt zugegriffen wurde. Diese SchnappschuBzeit wird in der Inode gespei- 
chert, die den SchnappschuB in seiner Gesamtheit beschreibt Wenn folg- 
lich uber den SchnappschuB zugegriffen wird, so wird die Zugriffszeit 
2423 fur die Inode 2422 stets in Form „5/l 10:00 AM" gemeldet. Dies 

20 geschieht sowohl vor dem Aktualisieren, wenn man „4/30 9:15 PM" er- 
warten konnte, als auch nach der Aktualisierung, wenn „5/l 11:23 AM" 
erwartet werden konnte. Erfolgt ein Zugriff durch das aktive Dateisystem, 
so werden die Zeiten in der Form „4/30 9:15 PM" und „5/l 11:23 AM" vor 
bzw. nach dem Aktualisieren gemeldet. Auf diese Weise wird ein Verfah- 

25 ren zum Fuhren eines Dateisystems in einem konsistenten Zustand imd 
zum Erzeugen von ausschlieBlich lesbaren Kopien des Dateisystems of- 
fenbart. 
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Patentanspriiche 

1. Verfahren zum Erzeugen eines Konsistenzpunkts, umfassend die 
Schritte: 

Markieren (510) einer Mehrzahl von Inoden, wobei eine Inode eine 
Dateidefinitionsstruktur ist, die zumindest eine Datei in einem Dateisy- 
stem beschreibt, die auf mehrere modifizierte Blocke in einem Dateisy- 
stem verweist, als in einem Konsistenzpunkt befindlich; 

Raumen (520) regularer Dateien sowie Metadateien (530) auf eine Spei- 
chereinrichtung ; 


Raumen (540) mindestens eines Blocks von Dateisysteminforaiation auf 
20 die Speichereinrichtung; und 

emeutes Einstellen (550) jeglicher beruhrter Inoden, die nicht Teil des 
Konsistenzpunkts waren, in eine Warteschlange. 


15 


25 2. Verfahren nach Anspruch 1, bei dem der Schritt des Raumens von 

Metadateien auf die Speichereinrichtung weiterhin folgende Schritte 
beinhaltet: 

Vorraumen (610) einer Inode aus einer Blockabbildungsdatei in eine 
30 Inodendatei; 


30.10.0 10:08 


-2- 

Zuweisen (620) von Platz auf der Speichereinrichtung fur samtliche 
beriihrten BIdcke in der Inode und den Blockabbildungsdateien; 


emeutes Raumen (630) der Inode far die Blockabbildungsdatei; 

5 

Aktualisieren (640) einer Mehrzahl von Eintragen in der Blockab- 
bildungsdatei, wobei jeder Eintrag unter den mehreren Eintragen einen 
Block auf der Speichereinrichtung reprasentiert; und 

10 Schreiben (650) samtlicher beruhrter Blocke in der Blockabbildungsdatei 

und der Inodendatei auf die Speichereinrichtung, 
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